Cách lấy mẫu khi bạn không biết phân phối


9

Tôi còn khá mới với số liệu thống kê (một số ít các khóa học Uni cấp độ mới bắt đầu) và đã tự hỏi về việc lấy mẫu từ các bản phân phối chưa biết. Cụ thể, nếu bạn không có ý tưởng về phân phối cơ bản, có cách nào để "đảm bảo" rằng bạn có được một mẫu đại diện không?

Ví dụ để minh họa: giả sử bạn đang cố gắng tìm ra sự phân phối của cải toàn cầu. Đối với bất kỳ cá nhân nào, bạn bằng cách nào đó có thể tìm ra sự giàu có chính xác của họ; nhưng bạn không thể "lấy mẫu" từng người trên Trái đất. Vì vậy, giả sử bạn lấy mẫu n = 1000 người một cách ngẫu nhiên.

  1. Nếu mẫu của bạn không bao gồm Bill Gates, bạn có thể nghĩ rằng không có tỷ phú nào tồn tại.

  2. Nếu bạn lấy mẫu bao gồm Bill Gates, bạn có thể nghĩ tỷ phú phổ biến hơn thực tế.

Trong cả hai trường hợp, bạn thực sự không thể biết tỷ phú phổ biến hay hiếm như thế nào; bạn thậm chí có thể không biết liệu có tồn tại hay không.

Có một cơ chế lấy mẫu tốt hơn tồn tại cho một trường hợp như thế này?

Làm thế nào bạn sẽ nói với một tiên nghiệm nên sử dụng quy trình lấy mẫu nào (và cần bao nhiêu mẫu)?

Đối với tôi, dường như bạn có thể phải "lấy mẫu" một tỷ lệ lớn dân số để biết, với bất cứ điều gì tiếp cận với sự chắc chắn hợp lý, các tỷ phú phổ biến hay hiếm trên hành tinh này và điều này là do sự phân phối cơ bản hơi khó khăn để làm việc với.


1
Trong phân phối của trường hợp giàu có, phần lớn sẽ phụ thuộc vào mục đích chính xác là gì. Ví dụ, mục đích là ước tính mức độ giàu có sẽ đưa một cá nhân vào top 10%, 20% hàng đầu, v.v., thì điều đó sẽ không quan trọng cho dù mẫu có bao gồm các tỷ phú hay không. Nhưng nếu mục đích là ước tính tỷ lệ tài sản nắm giữ trong tổng số 10% hàng đầu, thì việc lấy mẫu của các tỷ phú có thể sẽ rất quan trọng. Điểm chung ở đây là việc một mẫu có đại diện hay không luôn luôn liên quan đến những gì bạn đang cố gắng thực hiện.
Adam Bailey

có thật không? vấn đề mở, câu trả lời là tốt, vẫn là xấp xỉ (đôi khi tốt hơn, đôi khi tồi tệ hơn). Đây là một vấn đề mở, có thể là vấn đề mở duy nhất về thống kê
Nikos M.

Câu trả lời:


9

Tôi tranh luận về tuyên bố của bạn rằng "Trong cả hai trường hợp, bạn thực sự không thể biết tỷ phú phổ biến hay hiếm như thế nào". Gọi là phần chưa biết của tỷ phú trong dân số. Với đồng phục trước f , phân phối sau của f sau 1000 lần rút ra có 0 tỷ phú là phân phối Beta (1.1001), trông như thế này: fff1000p (f | b = 0)

Trong khi phân phối sau của sau 1000 lần rút ra có 1 tỷ phú là phân phối Beta (2.1000), trông như thế này: f1000p (f | b = 1)

f<0,01


7

Có hai điều bạn có thể làm (riêng biệt hoặc kết hợp)

Làm mẫu đuôi

Một là mô hình hóa đuôi của phân phối bằng phân phối tham số. Luật quyền lực được biết là phù hợp với phân phối của cải, vì vậy bạn hãy thử phân phối Pareto. Bạn có thể phù hợp với phân phối đó theo khả năng tối đa, nghĩa là bằng cách tìm các tham số thể hiện đúng nhất mẫu của bạn. Hoặc tốt hơn, bạn có thể đặt một linh mục Bayes vào các tham số, và tính toán toàn bộ hậu thế.

Thật không may, luật công suất rất nhạy cảm với các tham số và không có nhiều biểu dữ liệu lớn trong mẫu của bạn, sẽ có rất nhiều sự không chắc chắn về số mũ. Số lượng tỷ phú ước tính sẽ nhạy cảm với thông số này, nhưng ít hơn nhiều so với tài sản trung bình của các tỷ phú, vì vậy tình hình không quá tệ.

Lấy mẫu quan trọng

Một cách khác là thay đổi cách bạn thu thập mẫu của bạn. Giả sử rằng bạn nghi ngờ (như bạn nên) có nhiều tỷ phú trên đầu người ở Monaco hoặc Zurich hơn ở Mogadishiu. Nếu bạn biết dân số của mỗi thành phố này, bạn có thể thu thập một mẫu lớn hơn ở các thành phố nơi bạn mong đợi sẽ thấy nhiều tỷ phú hơn và một thành viên nhỏ hơn ở các thành phố khác.

Vì vậy, nói Zurich có 400.000 người và Mogadishu 1.400.000 và chúng tôi muốn thăm dò ý kiến ​​của 9.000 người. Chúng tôi quan tâm ở đây về số lượng triệu phú chứ không phải tỷ phú.

Một mẫu không thiên vị sẽ chọn 2.000 người ở Zurich và 7.000 ở Mogadishu. Tuy nhiên, chúng tôi sẽ thiên vị mẫu bằng cách lấy mẫu bảy lần thường xuyên hơn từ Zurich. Vì vậy, chúng tôi sẽ "giả vờ" rằng Zurich có 2.800.000 người và điều chỉnh sau. Điều này có nghĩa là chúng tôi sẽ thăm dò 6.000 người ở Zurich thay vì 2.000 và 4.000 ở Mogadishu.

Giả sử chúng tôi đếm 21 triệu phú trong mẫu Zurich của chúng tôi và chỉ có 1 trong mẫu Mogadishu của chúng tôi. Vì chúng tôi đã lấy mẫu Zurich 7 lần, chúng tôi sẽ chỉ tính là 3 triệu phú.

Thủ tục này sẽ làm giảm phương sai của công cụ ước tính của bạn. Nó cũng có thể được sử dụng cùng với phương pháp đầu tiên, trong trường hợp đó bạn sẽ điều chỉnh lấy mẫu quan trọng khi phù hợp với phân phối tham số.


6

Tôi nghĩ rằng một phương pháp lấy mẫu tốt dựa trên kiến ​​thức trước đây của hệ thống. Trong lĩnh vực của bạn, bạn có kiến ​​thức về những thành kiến ​​tiềm năng có thể ảnh hưởng đến việc lấy mẫu của bạn. Nếu bạn không có kiến ​​thức đó, bạn có thể có được nó từ văn học.

Trong ví dụ của bạn, bạn biết rằng có những tỷ phú và họ có thể thiên vị việc lấy mẫu của bạn. Vì vậy, bạn có thể quyết định phân tầng lấy mẫu theo cấp học, quốc gia, loại công việc, v.v ... Có nhiều lựa chọn.

Hãy thử với một ví dụ khác. Mục tiêu của bạn là xác định sự phong phú của một loài chuột trong công viên. Trong công viên này, có rừng và đồng cỏ. Theo tài liệu, bạn biết rằng chuột có nhiều trong rừng hơn đồng cỏ. Vì vậy, bạn phân tầng lấy mẫu của bạn bằng đặc tính này. Có thể có quy trình lấy mẫu khác, nhưng tôi nghĩ thông tin tốt nhất của bạn sẽ là từ các tài liệu hiện có.

Và nếu không có tài liệu về lĩnh vực của bạn? Không thể cải thiện, nhưng trong bối cảnh đó, tôi sẽ thực hiện một nghiên cứu trước để xem những yếu tố nào cần được tính đến để lấy mẫu.


2

Việc một mẫu có đại diện hay không không liên quan gì đến các phép đo quan sát được của mẫu. Một mẫu là đại diện nếu mọi bộ đơn vị quan sát có cùng xác suất được chọn như bất kỳ bộ nào khác có cùng kích thước. Tất nhiên điều này là khó thực hiện trừ khi bạn có thể liệt kê đầy đủ không gian mẫu của bạn. Giả sử bạn có thể lấy điều đó (ví dụ từ dữ liệu điều tra dân số), một mẫu ngẫu nhiên đơn giản sẽ là đại diện.

Bất kể bạn lấy mẫu như thế nào, sẽ luôn có ít nhất ba nguồn lỗi riêng biệt để xem xét:

lỗi lấy mẫu: tình cờ bạn đưa Bill Gates vào mẫu đại diện của bạn. Các phương pháp thống kê, đặc biệt là độ rộng của khoảng tin cậy, v.v. được thiết kế để giải quyết vấn đề này, miễn là bạn có một số kiến ​​thức sơ bộ về phân phối trong tay (ví dụ: tính bình thường, phân phối của cải chắc chắn không có).

sai lệch lấy mẫu: Mẫu không đại diện. Ví dụ: Bill Gates có một số chưa niêm yết, do đó, cuộc khảo sát qua điện thoại của bạn không bao giờ có thể liên lạc với anh ấy (trừ khi bạn sử dụng cái gì đó như "quay số ngẫu nhiên"). Đây là một ví dụ cực đoan, nhưng sự thiên vị lấy mẫu rất phổ biến. Một sự cố phổ biến là lấy các mẫu tại chỗ hoặc tiện lợi: Bạn lấy mẫu khách hàng quen của nhà hàng tại nhà hàng xem họ có thích địa điểm đó không, tần suất họ đã đến đó và họ có kế hoạch quay lại không. Khách hàng lặp lại có nhiều khả năng được lấy mẫu hơn so với khách hàng một lần và các mẫu thuộc loại này có thể bị sai lệch nghiêm trọng trong thái độ của họ.

phản ứng thiên vị: Các phép đo chính họ là không chính xác. Điều này có thể xảy ra do bất cứ điều gì từ trục trặc của đồng hồ đến nói dối có ý thức đến hiệu ứng lượng tử (ví dụ nguyên lý bất định của Heisenberg).


Câu trả lời này có lời khuyên hữu ích và bao gồm mặt bằng tốt. Tuy nhiên, tôi muốn đề xuất rằng đặc tính của "đại diện" có thể quá hạn chế, tuy nhiên, vì nó loại trừ các hình thức lấy mẫu phổ biến và hữu ích (bao gồm một số đề cập cụ thể trong các câu trả lời khác) như lấy mẫu phân tầng, lấy mẫu quan trọng và lấy mẫu hệ thống . Sẽ không đủ để cho phép một mẫu là đại diện khi cơ hội bao gồm bất kỳ bộ đơn vị quan sát nào được biết đến (và do đó có thể được sử dụng để tạo ra các ước tính không thiên vị) nhưng không nhất thiết phải là hằng số cho tất cả các bộ có kích thước nhất định?
whuber

@whuber "Sẽ không đủ để cho phép một mẫu là đại diện khi cơ hội bao gồm bất kỳ bộ đơn vị quan sát nào được biết đến ...": Điều này là chính xác và tôi nên chỉnh sửa câu trả lời của mình để xác nhận lấy mẫu phân tầng và lấy mẫu quan trọng. Tuy nhiên, lấy mẫu có hệ thống là xúc xắc, và lời khuyên đưa ra trong liên kết và các nơi khác chỉ đơn giản là sai. Nếu có các mẫu hệ thống trong dữ liệu, điểm bắt đầu ngẫu nhiên sẽ không loại bỏ sai lệch, tất cả những gì sẽ làm là đảm bảo bạn sẽ không thể tính toán độ lệch.
dùng3697176

có lẽ là câu trả lời tốt nhất cho đến nay (theo nghĩa nhắm trực tiếp đến điểm thống kê)
Nikos M.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.