Giải thích truyện tranh xkcd thạch đậu: Điều gì làm cho nó buồn cười?


60

Tôi thấy rằng một lần ra khỏi hai mươi tổng kiểm tra họ chạy, , vì vậy họ sai giả sử rằng trong một trong hai mươi xét nghiệm, kết quả là đáng kể ( 0,05 = 1 / 20 ).p<0.050.05=1/20

truyện tranh đậu xkcd - "Đáng kể"

  • Tiêu đề: Đáng kể
  • Văn bản di chuột: "'Vì vậy, uh, chúng tôi đã thực hiện nghiên cứu xanh một lần nữa và không có liên kết. Có lẽ đó là một' '' NGHIÊN CỨU LIÊN QUAN ĐẾN LIÊN KẾT XANH BEAN / ACNE; NGHIÊN CỨU THÊM NHIỀU HƠN! '"

truyện tranh xkcd 882 - "Đáng kể"


8
Độ tin cậy 95% sẽ có nghĩa là trung bình trong 5% thí nghiệm (một trong số 20) chúng ta sẽ có kết luận ngược lại. Đó chính xác là những gì đã xảy ra ở đây. Tức là, nếu bạn cũng thực hiện cùng một thí nghiệm với hạt thạch cam 1000 lần, ~ 50 trong số đó sẽ cho kết quả khả quan. :)
sashkello

19
Ai nói nó buồn cười?
whuber

3
funniness>0funniness<0(p<.05)


3
@Glen_b, chủ đề phim hoạt hình phân tích dữ liệu yêu thích là CW thích hợp, tuy nhiên, tôi thấy không có lý do nào để làm điều này. 'Tại sao buồn cười', câu hỏi yêu cầu hiểu về điểm thống kê có vấn đề trong phim hoạt hình, trong đó có câu trả lời & nên có chủ đề & không-CW (và tôi nghĩ bạn đã xử lý tốt bên dưới).
gung - Phục hồi Monica

Câu trả lời:


69

Hài hước là một điều rất riêng tư - một số người sẽ cảm thấy thú vị, nhưng nó có thể không hài hước với mọi người - và cố gắng giải thích điều gì làm cho điều gì đó buồn cười thường không thể truyền tải được sự hài hước, ngay cả khi họ giải thích điểm cơ bản. Thật vậy, không phải tất cả các xkcd đều có ý định thực sự hài hước. Tuy nhiên, nhiều người đưa ra những điểm quan trọng theo cách mà họ cho là kích động và ít nhất đôi khi họ thấy thú vị khi làm điều đó. (Cá nhân tôi thấy buồn cười, nhưng tôi thấy thật khó để giải thích rõ ràng điều gì, chính xác, làm cho tôi buồn cười. Tôi nghĩ một phần đó là sự công nhận về cách một kết quả đáng ngờ, hoặc thậm chí đáng ngờ biến thành một rạp xiếc truyền thông ( trên đó xem thêm truyện tranh tiến sĩ này ), và có lẽ một phần công nhận cách thức một số nghiên cứu thực sự có thể được thực hiện - nếu thường không có ý thức.)

Tuy nhiên, người ta có thể đánh giá cao điểm cho dù nó có làm nhột xương hài hước của bạn hay không.

n1n

Trong truyện tranh, Randall đã mô tả 20 bài kiểm tra, vì vậy đây không phải nghi ngờ gì về quan điểm của anh ấy (mà bạn mong đợi sẽ có được một ý nghĩa ngay cả khi không có gì xảy ra). Bài báo giả tưởng thậm chí còn nhấn mạnh vấn đề với tiêu đề phụ "Chỉ có 5% cơ hội trùng hợp!". (Nếu một bài kiểm tra kết thúc trong bài báo là bài kiểm tra duy nhất được thực hiện, thì đó có thể là trường hợp.)


Tất nhiên, cũng có vấn đề tinh vi hơn là một nhà nghiên cứu cá nhân có thể cư xử hợp lý hơn nhiều, nhưng vấn đề công khai tràn lan các thông tin sai lệch vẫn xảy ra. Chúng ta hãy nói rằng các nhà nghiên cứu này chỉ thực hiện 5 bài kiểm tra, mỗi bài kiểm tra ở mức 1%, vì vậy cơ hội tổng thể của họ để khám phá ra một kết quả không có thật như thế chỉ khoảng năm phần trăm.

Càng xa càng tốt. Nhưng bây giờ hãy tưởng tượng có 20 nhóm nghiên cứu như vậy, mỗi nhóm thử nghiệm bất kỳ tập hợp màu ngẫu nhiên nào họ nghĩ rằng họ có lý do để thử. Hoặc 100 nhóm nghiên cứu ... cơ hội nào của một tiêu đề như trong truyện tranh bây giờ?

Vì vậy, rộng hơn, truyện tranh có thể được tham chiếu thiên vị xuất bản nói chung hơn. Nếu chỉ có kết quả quan trọng bị thổi phồng, chúng ta sẽ không nghe về hàng tá nhóm không tìm thấy gì cho thạch xanh, chỉ có nhóm đã làm.

Thật vậy, đó là một trong những điểm chính được đưa ra trong bài viết này , đã được đăng trên các tin tức trong vài tháng qua ( ví dụ ở đây , mặc dù đó là một bài viết năm 2005).

Một phản hồi cho bài viết đó nhấn mạnh sự cần thiết phải nhân rộng. Lưu ý rằng nếu có một vài bản sao của nghiên cứu đã được công bố, kết quả "Thạch xanh liên quan đến mụn trứng cá" sẽ rất khó có thể đứng vững.

(Và thực sự, văn bản di chuột cho truyện tranh làm cho một tham chiếu thông minh đến cùng một điểm.)


12

Hiệu quả của kiểm tra giả thuyết đối với quyết định xuất bản đã được mô tả hơn năm mươi năm trước trong các Quyết định xuất bản trên giấy JASA năm 1959 và các tác động có thể có của chúng đối với các suy luận được rút ra từ các bài kiểm tra quan trọng - hoặc Vice Versa (xin lỗi vì tường thuật).

Tổng quan về bài báo Bài báo chỉ ra bằng chứng cho thấy kết quả được công bố của các bài báo khoa học không phải là một mẫu đại diện cho kết quả từ tất cả các nghiên cứu. Tác giả đã xem xét các bài báo được xuất bản trong bốn tạp chí tâm lý học lớn. 97% các bài báo được xem xét đã báo cáo kết quả có ý nghĩa thống kê cho các giả thuyết khoa học chính của họ.

Tác giả đưa ra một lời giải thích khả dĩ cho quan sát này: nghiên cứu mang lại kết quả không đáng kể không được công bố. Nghiên cứu như vậy mà các nhà điều tra khác không biết có thể được lặp lại một cách độc lập cho đến khi cuối cùng tình cờ có một kết quả quan trọng xảy ra (lỗi Loại 1) và được công bố. Điều này mở ra khả năng rằng các tài liệu khoa học được xuất bản có thể bao gồm sự thể hiện quá mức các kết quả không chính xác do lỗi Loại 1 trong các thử nghiệm có ý nghĩa thống kê - chính xác là kịch bản mà truyện tranh XKCD ban đầu chọc vào.

Quan sát chung này sau đó đã được xác minh và phát hiện lại có thể nhiều lần trong những năm qua. Tôi tin rằng bài báo JASA năm 1959 là người đầu tiên đưa ra giả thuyết. Tác giả của bài báo đó là người giám sát tiến sĩ của tôi. Chúng tôi cập nhật bài báo năm 1959 của ông 35 năm sau và đạt được kết luận tương tự. Các quyết định xuất bản được xem xét lại: Ảnh hưởng của kết quả của các thử nghiệm thống kê đối với quyết định xuất bản và Phó Versa. Thống kê người Mỹ, Tập 49, số 1, tháng 2 năm 1995


Chắc chắn - Tôi đã chỉnh sửa câu trả lời của tôi ở trên để bao gồm một cái nhìn tổng quan về bài báo.
Wilf Rosenbaum


-2

Những gì mọi người bỏ qua là giá trị p thực tế cho trường hợp thạch đậu xanh không phải là 0,05 mà là khoảng .64. Chỉ giá trị p giả định (danh nghĩa) là 0,05. Có một sự khác biệt giữa giá trị p thực tế và giả vờ. Xác suất tìm thấy 1 trên 20 đạt đến mức danh nghĩa ngay cả khi tất cả các giá trị null là đúng KHÔNG 0,05, nhưng 0,64. Mặt khác, nếu bạn đánh giá bằng chứng xem xét khả năng so sánh, thì quan điểm phổ biến nhất ngoài quan điểm thống kê lỗi (trong đó giá trị p cư trú) bạn sẽ nói có bằng chứng cho H: hạt thạch xanh thực sự có mối tương quan với mụn trứng cá. Đó là bởi vì P (x; không có hiệu lực) <P (x; H). Phía bên trái là <0,05, trong khi phía bên phải khá cao: nếu hạt thạch xanh gây ra mụn trứng cá thì việc tìm kiếm sự liên quan quan sát được là có thể xảy ra. Khả năng một mình không nhận được xác suất lỗi vì chúng dựa trên dữ liệu thực tế đạt được. Không có sự khác biệt trong việc thẩm định so với việc chỉ có một thử nghiệm này về đậu xanh và mụn trứng cá. Vì vậy, mặc dù phim hoạt hình này thường được xem là tạo niềm vui cho các giá trị p, nhưng điều thú vị về nó cho thấy lý do tại sao chúng ta cần xem xét xác suất lỗi tổng thể (như các giá trị p không giả vờ làm) và không chỉ là khả năng. Suy luận Bayes cũng dựa trên kết quả, bỏ qua xác suất lỗi. Cách duy nhất để tránh tìm bằng chứng cho H, đối với người Bayes là có mức thấp trước H. Nhưng chúng tôi sẽ điều chỉnh giá trị p cho dù đối tượng là gì, và không phụ thuộc vào linh mục, vì quy trình săn bắn được sử dụng để tìm ra giả thuyết để kiểm tra. Ngay cả khi H được săn lùng là đáng tin, nó ' S vẫn là một bài kiểm tra tệ hại. Errorstatistic.com


2
Rất khó để nói chính xác những gì bài viết này đang cố gắng nói. Hãy để tôi tập trung vào một phần của nó, hy vọng rằng một sự làm rõ có thể tiết lộ ý nghĩa của phần còn lại: chính xác ý bạn là gì bởi "xác suất lỗi tổng thể"?
whuber

2
@whuber Tôi tin rằng bài viết đang đề cập đến vấn đề nhiều so sánh.
Matt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.