Đối số thống kê cho lý do tại sao 10.000 đầu từ 20.000 lần ném cho thấy dữ liệu không hợp lệ


11

Giả sử chúng ta liên tục tung một đồng xu công bằng và chúng ta biết số lượng đầu và đuôi sẽ gần bằng nhau. Khi chúng tôi thấy một kết quả như 10 đầu và 10 đuôi cho tổng số 20 lần tung, chúng tôi tin rằng kết quả và có xu hướng tin rằng đồng tiền là công bằng.

Chà, khi bạn thấy một kết quả như 10000 đầu và 10000 đuôi cho tổng số 20000 lần tung, tôi thực sự sẽ đặt câu hỏi về tính hợp lệ của kết quả (người thí nghiệm đã giả mạo dữ liệu), vì tôi biết điều này khó xảy ra hơn, nói là kết quả của 10093 đầu và đuôi 9907.

Lập luận thống kê đằng sau trực giác của tôi là gì?

Câu trả lời:


21

Giả sử một đồng tiền công bằng, kết quả của 10000 đầu và 10000 đuôi thực sự có khả năng cao hơn kết quả của 10093 đầu và 9907 đuôi.

Tuy nhiên, khi bạn nói rằng một người thí nghiệm thực sự không có khả năng có được số lượng đầu và đuôi bằng nhau, bạn đang ngầm gọi định lý Bayes. Niềm tin trước đây của bạn về một thử nghiệm thực tế là Prob (Không có đầu = 10000 trong 20000 lần ném | Cho rằng người thử nghiệm không giả mạo) gần bằng 0. Do đó, khi bạn thấy một kết quả thực tế rằng 'Không có đầu = 10000' của bạn hậu thế về Prob (Experimenter không giả mạo | kết quả quan sát được của 10000 đầu) cũng gần bằng 0. Do đó, bạn kết luận rằng người thử nghiệm đang giả mạo dữ liệu.


Giải thích rất tốt! Thật là một ví dụ tuyệt vời cho cách tiếp cận định lý Bayes.
Tal Galili

1
@Srikant: trước đó không thể được xác định chính thức. Trong mọi trường hợp, Prob (Không có đầu = X | người thí nghiệm không giả mạo) luôn ở khoảng 0 khi N = 20000, bất kể giá trị của X và bất kể trước đó của bạn. Vì vậy, số sau của bạn cho bất kỳ số nào cũng luôn gần bằng 0. Tôi không thấy điều này có liên quan gì với định lý Bayes.
Joris Meys

Tất cả những điều này từ một chàng trai đang ẩn náu cố gắng chứng minh thần tồn tại. Thanh lịch, thực sự.
Brandon Bertelsen

1
Đặt điều này trong một quan điểm tổng quát hơn, điểm mà tôi đồng ý, đó là định lý Bayes đang hoạt động ở đây. Cụ thể, có những khả năng thay thế (tương ứng với các quy trình phát sinh khác nhau) cho gian lận và cho những người thử nghiệm trung thực. Thiết lập gian lận là suy luận sau đối với trực quan và do đó, quá trình gian lận chưa được xác định rõ ràng.
liên hợp chiến binh

1
@Srikant @whuber: tổ hợp ... bạn nói đúng. Tôi đã bắt đầu từ một xác suất thống nhất, điều này là vô nghĩa trong trường hợp này. Xấu của tôi
Joris Meys

12

Tôi thích lời giải thích của Srikant và tôi nghĩ ý tưởng Bayes có lẽ là cách tốt nhất để tiếp cận một vấn đề như thế này. Nhưng đây là một cách khác để xem nó mà không có Bayes: (bằng R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

đó là khoảng 31,2 trên hệ thống của tôi. Nói cách khác, khả năng nhìn thấy 10 trên 20 nhiều hơn 30 lần so với việc nhìn thấy 10.000 trên 20.000, ngay cả với một đồng tiền công bằng trong cả hai trường hợp. Tỷ lệ này tăng mà không bị ràng buộc khi kích thước mẫu tăng.

Đây là một cách tiếp cận tỷ lệ khả năng, nhưng một lần nữa, trong ruột của tôi, cảm giác này giống như một lời phán xét Bayes hơn bất cứ điều gì khác.


Tại sao tỷ lệ? Tại sao không chỉ nói rằng xác suất rút thăm chính xác là cực kỳ thấp?
Andy W

5
Sự khẳng định rằng một xác suất cụ thể là thấp trong bối cảnh không thuyết phục. Xác suất mà tôi cao chính xác bằng chiều cao của tôi (bất cứ điều gì có thể) là bằng không. Và, vâng, thật khó để xác định chiều cao với độ chính xác vô hạn, yada, yada, yada ... Quan điểm của tôi là sự biến đổi của sự tồn tại khuấy động với các sự kiện có xác suất vô hạn xảy ra mọi lúc! 10.000 trên 20.000 - ngoài ngữ cảnh - hoàn toàn không làm tôi ngạc nhiên. Bất kể xác suất số của nó có thể là gì.

9

Một lập luận Bayes chủ nghĩa thực tế là cách duy nhất (từ quan điểm thống kê) bạn có thể hiểu về trực giác của mình , đó là - nói đúng - chủ đề của một cuộc điều tra tâm lý , không phải là một thống kê. Tuy nhiên, thật không công bằng - và do đó không hợp lệ - sử dụng phương pháp Bayes để lập luận rằng một điều tra viên đã làm giả dữ liệu. Logic của điều này là hoàn toàn thông tư: nó nói rằng "dựa trên niềm tin trước đây của tôi về kết quả, tôi thấy kết quả của bạn thật đáng kinh ngạc, và do đó bạn phải lừa dối." Một cuộc tranh luận tự phục vụ phi logic như vậy rõ ràng sẽ không đứng trong phòng xử án hoặc trong một quá trình đánh giá ngang hàng.

Thay vào đó, chúng ta có thể lấy một mẹo từ bài phê bình của Ronald Fisher về các thí nghiệm của Mendel và tiến hành một bài kiểm tra giả thuyết chính thức. Tất nhiên không hợp lệ để kiểm tra một giả thuyết bài hoc dựa trên kết quả. Nhưng các thí nghiệm phải được nhân rộng để được tin rằng: đó là nguyên lý của phương pháp khoa học. Vì vậy, khi thấy một kết quả mà chúng tôi nghĩ có thể đã bị làm giả, chúng tôi có thể đưa ra một giả thuyết thích hợp để kiểm tra kết quả trong tương lai (hoặc bổ sung). Trong trường hợp này, khu vực quan trọng sẽ bao gồm một tập hợp các kết quả rất gần với mong đợi. Chẳng hạn, một bài kiểm tra tạiα= Mức 5% sẽ xem bất kỳ kết quả nào trong khoảng từ 9,996 đến 10,04 là nghi ngờ, bởi vì (a) bộ sưu tập này gần với kết quả "giả mạo" giả định của chúng tôi và (b) theo giả thuyết không có giả mạo (vô tội cho đến khi được chứng minh là có tội trước tòa!) , kết quả trong phạm vi này chỉ có 5% (thực tế là 5,07426%) cơ hội xảy ra. Hơn nữa, chúng ta có thể đặt cách tiếp cận có vẻ đặc biệt này trong bối cảnh chi bình phương (a la Fisher) chỉ bằng cách bình phương độ lệch giữa tỷ lệ quan sát được và tỷ lệ dự kiến, sau đó gọi bổ đề Neyman-Pearson trong thử nghiệm một đầu tại đuôi thấp và áp dụng xấp xỉ bình thường cho phân phối Binomial .

Mặc dù thử nghiệm như vậy không thể chứng minh giả mạo, nhưng nó có thể được áp dụng cho các báo cáo trong tương lai từ người thử nghiệm đó để đánh giá độ tin cậy của các yêu cầu của họ, mà không đưa ra các giả định không thể chấp nhận được và chỉ dựa vào trực giác của bạn. Điều này công bằng và nghiêm ngặt hơn nhiều so với việc đưa ra một lập luận Bayes để ám chỉ ai đó có thể hoàn toàn vô tội và tình cờ không may mắn đến mức họ có được kết quả thử nghiệm tuyệt đẹp!


5

Tôi nghĩ rằng trực giác của bạn là thiếu sót. Có vẻ như bạn đang ngầm so sánh một kết quả "rất đặc biệt" (chính xác là 10000 đầu) với một tập hợp nhiều kết quả (tất cả các số đầu "không đặc biệt" gần 10000). Tuy nhiên, định nghĩa "đặc biệt" là một lựa chọn tùy ý dựa trên tâm lý của chúng ta. Làm thế nào về nhị phân 10000000000000 (thập phân 8192) hoặc Hex ABC (thập phân 2748) - điều đó có đặc biệt đáng ngờ không? Như Joris Meys đã nhận xét, lập luận Bayes về cơ bản sẽ giống nhau cho bất kỳ số lượng người đứng đầu nào, ngụ ý rằng mỗi kết quả sẽ là đáng ngờ.

Để mở rộng đối số một chút: bạn muốn kiểm tra một giả thuyết ("người thí nghiệm đang giả mạo"), sau đó bạn chọn một thống kê kiểm tra (số lượng đầu). Bây giờ, liệu thống kê kiểm tra này có phù hợp để cho bạn biết điều gì về giả thuyết của bạn không? Đối với tôi, có vẻ như thống kê kiểm tra được chọn không mang tính thông tin (không phải là hàm của một tham số được chỉ định làm giá trị cố định trong giả thuyết). Điều này trở lại câu hỏi bạn có ý gì khi "gian lận". Nếu điều đó có nghĩa là người thí nghiệm kiểm soát đồng xu theo ý muốn, thì điều này không được phản ánh trong thống kê kiểm tra. Tôi nghĩ rằng bạn cần phải chính xác hơn để tìm ra một chỉ số có thể định lượng, và do đó làm cho câu hỏi có thể chấp nhận được để kiểm tra thống kê.


+1, nhưng tôi không bị thuyết phục. Điều đặc biệt ở 10.000 là nó chính xác bằng số lượng người đứng đầu dự kiến ​​theo giả thuyết rằng đồng tiền là công bằng. Thực tế này là độc lập với bất kỳ tâm lý hoặc hệ thống đại diện số. Phân tích trong phản hồi này có thể cung cấp một số cái nhìn sâu sắc về một tình huống trong đó, giả sử, 20.005 đồng xu đã được lật và 10.000 đầu (và do đó, 10,005 đuôi) đã được ghi nhận và giả mạo "trực giác" của ai đó đã diễn ra.
whuber

Tôi hoàn toàn đồng ý rằng - như bạn chỉ ra trong câu trả lời của mình - tất cả phụ thuộc vào định nghĩa a-prori của giả thuyết: nếu bạn xác định trước rằng bằng cách "giả mạo thử nghiệm", bạn có nghĩa là "đạt được kết quả cho số lượng đầu gần với giá trị mong đợi ", đó là cơ sở cho một thử nghiệm thống kê với" số lượng đầu "làm thống kê kiểm tra. Tuy nhiên, nếu không có sự làm rõ như vậy, ý nghĩa của "giả mạo" và "giá trị đặc biệt cho số lượng đầu" vẫn còn nhiều mây và không rõ họ phải làm gì với nhau.
caracal

4

Kết luận bạn rút ra sẽ RẤT phụ thuộc vào mức độ bạn chọn trước cho xác suất gian lận và xác suất trước đó, khi người đưa hàng nói dối, x đầu được báo cáo.

Đặt khối lượng lớn nhất vào P (10000 đầu được báo cáo | nói dối) theo quan điểm của tôi là hơi phản cảm. Trừ khi phóng viên ngây thơ, tôi không thể tưởng tượng bất kỳ ai báo cáo loại dữ liệu giả mạo đó (phần lớn là vì lý do bạn đề cập trong bài đăng gốc; điều đó quá đáng nghi với hầu hết mọi người.) Nếu đồng tiền thực sự không công bằng và người gửi tiền phải báo cáo dữ liệu bị làm sai lệch, sau đó tôi nghĩ rằng hợp lý hơn (và rất gần đúng) trước các kết quả được báo cáo có thể là đồng phục riêng biệt trước P (đầu X báo cáo | nói dối) = 1/201 cho các số nguyên {9900, ..., 10100} và P (x đầu báo cáo | nói dối) = 0 cho tất cả các x khác. Giả sử bạn nghĩ rằng xác suất nói dối trước đó là 0,5. Sau đó, một số xác suất sau là:

P (nói dối | 9900 đầu báo cáo) = P (nói dối | 10100 đầu báo cáo) = 0,70;

P (nói dối | 9950 đầu báo cáo) = P (nói dối | 10050 đầu báo cáo) = 0,54;

P (nói dối | 10000 đầu báo cáo) = 0,47.

Số lượng hợp lý nhất của người đứng đầu báo cáo từ một đồng tiền công bằng sẽ dẫn đến sự nghi ngờ. Chỉ cần cho thấy mức độ nhạy cảm của xác suất sau đối với các linh mục của bạn, nếu xác suất gian lận trước đó được hạ xuống 0,10, thì xác suất sau sẽ trở thành:

P (nói dối | 9900 đầu báo cáo) = P (nói dối | 10100 đầu báo cáo) = 0,21;

P (nói dối | 9950 đầu báo cáo) = P (nói dối | 10050 đầu báo cáo) = 0,11;

P (nói dối | 10000 đầu báo cáo) = 0,09.

Vì vậy, tôi nghĩ rằng câu trả lời ban đầu (và được đánh giá cao) có thể được mở rộng một chút; không có cách nào bạn nên kết luận rằng dữ liệu bị làm sai lệch mà không xem xét kỹ lưỡng thông tin trước đó. Ngoài ra, chỉ cần suy nghĩ về điều này bằng trực giác, có vẻ như xác suất nói dối sau có khả năng bị ảnh hưởng nhiều hơn bởi xác suất nói dối trước đó hơn là do sự phân bố của những người đứng đầu được báo cáo rằng người chèo thuyền đang nói dối (ngoại trừ các linh mục đặt tất cả khối lượng của chúng trên một số ít đầu được báo cáo cho thấy người giao hàng đang nói dối, chẳng hạn như trong ví dụ của tôi.)


Tôi nghĩ rằng đây là một câu trả lời rất tốt, nhưng tôi không đồng ý với đoạn thứ hai của bạn. Tôi không nghĩ xác suất có điều kiện ban đầu của Srikant là phản trực giác và đơn giản vì đây là một câu hỏi khó trả lời không phải là một lập luận chống lại nó. Tôi cũng không nghĩ rằng xác suất thống nhất của bạn nằm trong khoảng 9900 đến 10100 có ý nghĩa gì cả, mặc dù nó rất hữu ích cho các mục đích trình diễn.
Andy W

2

Đối với lời giải thích Bayes, bạn cần phân phối xác suất trước trên các kết quả được báo cáo bởi một người gửi tiền xu nói dối, cũng như xác suất nói dối trước đó. Khi bạn thấy một giá trị có nhiều khả năng nằm dưới phân phối nói dối hơn so với phân phối ngẫu nhiên, điều đó làm cho xác suất sau của bạn nói dối cao hơn nhiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.