Suy luận thống kê khi mẫu người dân là người dân


47

Hãy tưởng tượng bạn phải làm báo cáo về số lượng thí sinh hàng năm làm bài kiểm tra nhất định. Chẳng hạn, có vẻ như rất khó để suy ra% thành công được quan sát, trên một dân số rộng hơn do tính đặc thù của dân số mục tiêu. Vì vậy, bạn có thể xem xét rằng những dữ liệu này đại diện cho toàn bộ dân số.

Là kết quả của các xét nghiệm chỉ ra rằng tỷ lệ nam và nữ là khác nhau thực sự chính xác? Liệu một thử nghiệm so sánh tỷ lệ quan sát và lý thuyết có vẻ là một chính xác, vì bạn xem xét toàn bộ dân số (và không phải là một mẫu)?

Câu trả lời:


31

Có thể có nhiều ý kiến ​​khác nhau về vấn đề này, nhưng tôi sẽ coi dữ liệu dân số là một mẫu và giả định dân số giả định, sau đó đưa ra những suy luận theo cách thông thường. Một cách để nghĩ về điều này là có một quy trình tạo dữ liệu cơ bản chịu trách nhiệm về dữ liệu được thu thập, phân phối "dân số".

Trong trường hợp cụ thể của bạn, điều này có thể có ý nghĩa hơn nữa vì bạn sẽ có đoàn hệ trong tương lai. Sau đó, dân số của bạn thực sự là những người tham gia bài kiểm tra ngay cả trong tương lai. Theo cách này, bạn có thể tính đến các biến thể dựa trên thời gian nếu bạn có dữ liệu trong hơn một năm hoặc cố gắng tính các yếu tố tiềm ẩn thông qua mô hình lỗi của bạn. Nói tóm lại, bạn có thể phát triển các mô hình phong phú hơn với khả năng giải thích lớn hơn.


4
Chỉ cần xem qua bài đăng này từ A Gelman, phân tích thống kê khác nhau như thế nào khi phân tích toàn bộ dân số chứ không phải là một mẫu? , j.mp/cZ1WSI . Một điểm khởi đầu tốt về việc chuyển hướng các ý kiến ​​về khái niệm "siêu dân số".
chl

2
@chl: thú vị - nhắc nhở tôi rằng Gelman đã thảo luận về suy luận hữu hạn / siêu dân số có thể so sánh với các hiệu ứng cố định / ngẫu nhiên trong bài báo của mình về ANOVA [ stat.columbia.edu/~gelman/research/published/econanova3.pdf ].
ars

+1 Tôi vừa trở lại vấn đề này một lần nữa (thông qua google). Tôi nghĩ rằng câu trả lời của bạn là tại chỗ.
Shane

25

Trên thực tế, nếu bạn thực sự tích cực, bạn có toàn bộ dân số, thậm chí không cần phải thống kê. Sau đó, bạn biết chính xác sự khác biệt lớn như thế nào, và không có lý do gì để kiểm tra nó nữa. Một sai lầm cổ điển là sử dụng ý nghĩa thống kê là ý nghĩa "có liên quan". Nếu bạn lấy mẫu dân số, sự khác biệt là gì.

Mặt khác, nếu bạn cải tổ giả thuyết của mình, thì các ứng cử viên có thể được xem là một mẫu của các ứng cử viên có thể, cho phép kiểm tra thống kê. Trong trường hợp này, bạn sẽ kiểm tra chung xem nam và nữ có khác nhau trong bài kiểm tra không.

Như ars đã nói, bạn có thể sử dụng các bài kiểm tra trong nhiều năm và thêm thời gian như một yếu tố ngẫu nhiên. Nhưng nếu sự quan tâm của bạn thực sự nằm ở sự khác biệt giữa các ứng cử viên trong bài kiểm tra cụ thể này, bạn không thể sử dụng khái quát hóa và kiểm tra là vô nghĩa.


15

Theo truyền thống, suy luận thống kê được dạy trong bối cảnh mẫu xác suất và bản chất của lỗi lấy mẫu. Mô hình này là cơ sở để kiểm tra ý nghĩa. Tuy nhiên, có nhiều cách khác để mô hình hóa các lần khởi hành có hệ thống từ tình cờ và hóa ra các xét nghiệm tham số (dựa trên lấy mẫu) của chúng tôi có xu hướng gần đúng với các phương án này.

Các thử nghiệm tham số của các giả thuyết dựa trên lý thuyết lấy mẫu để đưa ra các ước tính về khả năng lỗi. Nếu một mẫu có kích thước nhất định được lấy từ dân số, kiến ​​thức về bản chất hệ thống của lấy mẫu làm cho việc kiểm tra và khoảng tin cậy có ý nghĩa. Với dân số, lý thuyết lấy mẫu đơn giản là không liên quan và các bài kiểm tra không có ý nghĩa theo nghĩa truyền thống. Suy luận là vô ích, không có gì để suy luận, chỉ có điều ... chính tham số.

Một số người khắc phục điều này bằng cách kêu gọi các siêu dân số mà điều tra dân số hiện nay đại diện. Tôi thấy những lời kêu gọi này không thuyết phục - các xét nghiệm tham số được đặt ra trước khi lấy mẫu xác suất và các đặc điểm của nó. Một dân số tại một thời điểm nhất định có thể là một mẫu của dân số lớn hơn theo thời gian và địa điểm. Tuy nhiên, tôi không thấy bất kỳ cách nào mà người ta có thể lập luận một cách hợp pháp rằng đây là mẫu ngẫu nhiên (hay nói chung là bất kỳ dạng mẫu nào của xác suất). Không có mẫu xác suất, lý thuyết lấy mẫu và logic truyền thống của kiểm tra đơn giản là không áp dụng. Bạn cũng có thể kiểm tra trên cơ sở mẫu thuận tiện.

Rõ ràng, để chấp nhận thử nghiệm khi sử dụng dân số, chúng ta cần phân phối với cơ sở của các thử nghiệm đó trong quy trình lấy mẫu. Một cách để làm điều này là nhận ra mối liên hệ chặt chẽ giữa các thử nghiệm lý thuyết mẫu của chúng tôi - chẳng hạn như t, Z và F - và các thủ tục ngẫu nhiên. Các xét nghiệm ngẫu nhiên dựa trên mẫu trong tay. Nếu tôi thu thập dữ liệu về thu nhập của nam và nữ, mô hình xác suất và cơ sở cho các ước tính lỗi của chúng tôi được lặp lại phân bổ ngẫu nhiên của các giá trị dữ liệu thực tế. Tôi có thể so sánh sự khác biệt quan sát giữa các nhóm với một phân phối dựa trên sự ngẫu nhiên này. (Nhân tiện, chúng tôi làm điều này mọi lúc trong các thí nghiệm, trong đó, việc lấy mẫu ngẫu nhiên từ mô hình dân số hiếm khi thích hợp).

Bây giờ, nó chỉ ra rằng các thử nghiệm lý thuyết mẫu thường là xấp xỉ tốt các thử nghiệm ngẫu nhiên. Vì vậy, cuối cùng, tôi nghĩ rằng các thử nghiệm từ các quần thể là hữu ích và có ý nghĩa trong khuôn khổ này và có thể giúp phân biệt hệ thống với biến đổi cơ hội - giống như với các thử nghiệm dựa trên mẫu. Logic được sử dụng để đạt được một chút khác biệt, nhưng nó không ảnh hưởng nhiều đến ý nghĩa thực tế và việc sử dụng các bài kiểm tra. Tất nhiên, có thể tốt hơn nếu chỉ sử dụng các thử nghiệm ngẫu nhiên và hoán vị trực tiếp nếu chúng có sẵn dễ dàng với tất cả sức mạnh tính toán hiện đại của chúng tôi.


3
+1 cho các cuộc thảo luận hợp lý; một vài điểm mặc dù Máy móc suy luận không có sẵn để phân tích dân số, nhưng trong nhiều trường hợp người mẫu, tôi muốn đặt câu hỏi liệu ai có các số liệu dân số để bắt đầu với - thường, nó không phải là rất khó để chọc lỗ. Vì vậy, nó không phải lúc nào cũng hấp dẫn một siêu dân số như là phương tiện để triển khai suy luận. Thay vì "siêu dân số", cách tốt hơn là giả định một quy trình tạo dữ liệu mang lại, ví dụ, thử nghiệm hàng năm để thực hiện các đoàn hệ được đề cập. Đó là nơi phát sinh thành phần ngẫu nhiên.
ars

2
Tôi không nghĩ có bất kỳ sự bất đồng nào ở đây, ngoại trừ việc thiếu máy móc suy luận để phân tích dân số. Các thử nghiệm ngẫu nhiên được áp dụng cho các quần thể và có thể kiểm tra một cách hợp lý liệu quy trình tạo dữ liệu có khả năng do một quá trình tạo ngẫu nhiên so với quy trình tạo hệ thống hay không. Họ không giả định lấy mẫu ngẫu nhiên và là một thử nghiệm khá trực tiếp về cơ hội so với biến đổi hệ thống. Các thử nghiệm truyền thống của chúng tôi xảy ra để đứng khá tốt cho họ.
Brett

Đó là sự thật: "thiếu máy móc suy luận". Từ ngữ bất cẩn về phía tôi, đặc biệt là vì tôi thích điểm bạn đưa ra về các bài kiểm tra ngẫu nhiên trong câu trả lời của bạn.
ars

lấy làm tiếc. Tôi gặp khó khăn để hiểu làm thế nào tôi sẽ tính toán hoán vị và kết luận nào tôi sẽ có thể đưa ra cho họ.
pbneau

Là bootstrapping không phải là một thay thế hợp lệ? Làm thế nào để bootstrapping không giải quyết được nhu cầu thực hiện một trong hai giả định này?
Chernoff

3

Giả sử kết quả chỉ ra rằng các ứng cử viên khác nhau dọc theo giới tính. Ví dụ, tỷ lệ những người hoàn thành các bài kiểm tra như sau: 40% nữ và 60% nam. Để đề xuất điều hiển nhiên, 40% khác với 60%. Bây giờ điều quan trọng là quyết định: 1) dân số quan tâm của bạn; 2) làm thế nào quan sát của bạn liên quan đến dân số quan tâm. Dưới đây là một số chi tiết về hai vấn đề này:

  1. Nếu dân số bạn quan tâm chỉ là những ứng cử viên bạn đã quan sát (ví dụ: 100 ứng viên đã nộp đơn vào một trường đại học năm 2016), bạn không cần phải báo cáo các bài kiểm tra ý nghĩa thống kê. Điều này là do dân số quan tâm của bạn đã được lấy mẫu hoàn toàn ... tất cả những gì bạn quan tâm là 100 ứng viên mà bạn có dữ liệu đầy đủ. Đó là, 60% là, dừng hoàn toàn, khác với 40%. Loại câu hỏi này là, có sự khác biệt về giới trong dân số 100 người áp dụng cho chương trình không? Đây là một câu hỏi mô tả và câu trả lời là có.

  2. Tuy nhiên, nhiều câu hỏi quan trọng là về những gì sẽ xảy ra trong các cài đặt khác nhau. Đó là, nhiều nhà nghiên cứu muốn đưa ra các xu hướng về quá khứ giúp chúng ta dự đoán (và sau đó lên kế hoạch) cho tương lai. Một câu hỏi ví dụ về vấn đề này sẽ là, khả năng các bài kiểm tra trong tương lai của các ứng cử viên có khả năng khác nhau theo giới tính như thế nào? Dân số quan tâm sau đó rộng hơn trong kịch bản # 1 ở trên. Tại thời điểm này, một câu hỏi quan trọng cần đặt ra là: Dữ liệu quan sát của bạn có khả năng là đại diện cho các xu hướng trong tương lai không? Đây là một câu hỏi suy luận và dựa trên thông tin được cung cấp bởi người đăng ban đầu, câu trả lời là: chúng tôi không biết.

Tóm lại, số liệu thống kê bạn báo cáo phụ thuộc vào loại câu hỏi bạn muốn trả lời.

Suy nghĩ về thiết kế nghiên cứu cơ bản có thể hữu ích nhất (thử tại đây: http://www.socialresearchmethods.net/kb/design.php ). Suy nghĩ về siêu quần thể có thể giúp ích nếu bạn muốn biết thêm thông tin nâng cao (đây là một bài viết có thể giúp: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ).


2

Nếu bạn xem xét bất cứ điều gì mà bạn đang đo là một quá trình ngẫu nhiên, thì có các kiểm tra thống kê có liên quan. Lấy ví dụ, lật một đồng xu 10 lần để xem nó có công bằng không. Bạn nhận được 6 cái đầu và 4 cái đuôi - bạn kết luận điều gì?


1
Tôi thực sự không hiểu làm thế nào kết luận bạn đạt được về vấn đề tung đồng xu có liên quan đến câu hỏi được hỏi. Có lẽ bạn có thể mở rộng một chút về điểm đó? Các xét nghiệm thống kê dường như có liên quan đến mức độ chúng giúp suy ra các kết quả quan sát được cho một dân số lớn hơn, cho dù đó là một tài liệu tham khảo hay dân số nói chung. Câu hỏi ở đây dường như là: Cho rằng mẫu gần với dân số của người thử nghiệm trong một khoảng thời gian cố định (ở đây, một năm), suy luận cổ điển có phải là cách đúng đắn để đưa ra quyết định về sự khác biệt có thể ở cấp độ cá nhân không?
chl

1
@chl Có, nhưng có vẻ như OP đang cố gắng suy ra xác suất thành công tiềm ẩn. Các thử nghiệm so sánh tỷ lệ quan sát được với phân bố lý thuyết để xác định xem có sự khác biệt nào về mức độ tin cậy nhất định hay không. Bạn đang kiểm tra bất kỳ hình thức ngẫu nhiên nào, không chỉ lấy mẫu ngẫu nhiên lỗi.
James
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.