Có gì sai với truyện tranh thường xuyên của XKCD so với truyện tranh Bayes?


113

truyện tranh xkcd số 1132

Truyện tranh xkcd này (Người thường xuyên so với Bayes) làm cho niềm vui của một nhà thống kê thường xuyên nhận được một kết quả rõ ràng sai.

Tuy nhiên, dường như đối với tôi, lý luận của ông thực sự đúng theo nghĩa là nó tuân theo phương pháp luận thường xuyên tiêu chuẩn.

Vì vậy, câu hỏi của tôi là "anh ấy có áp dụng đúng phương pháp thường xuyên không?"

  • Nếu không: điều gì sẽ là một suy luận thường xuyên chính xác trong kịch bản này? Làm thế nào để tích hợp "kiến thức trước" về sự ổn định của mặt trời trong phương pháp thường xuyên?
  • Nếu có: wtf? ;-)

17
Thảo luận trên blog của Gelman: andrewgelman.com/2012/11/16808
Glen

5
Tôi nghĩ rằng rất nhiều là sai, cả từ quan điểm thường xuyên và Bayes. Mỗi lời chỉ trích lớn nhất của tôi: Thứ nhất, giá trị P cuối cùng là heuristic và là thuộc tính của một số thứ bao gồm cả vấn đề thống kê, dữ liệu và thử nghiệm. Ở đây, cả ba đều được trình bày sai cho câu hỏi cụ thể đó. Thứ hai, "Bayes" sử dụng cách tiếp cận lý thuyết quyết định mà không cần phải là Bayes. Mặc dù vậy, nó thật buồn cười.
Momo

5
Để đưa nó ra khỏi vương quốc thống kê .... mặt trời không đủ lớn để đi xa hơn. QED, Bayes là đúng. ( Mặt trời thay vào đó sẽ trở thành Người khổng lồ đỏ )
Ben Brocka

3
@Glen et alii, đặc biệt, lưu ý phản hồi của Randall Munroe đối với Gelman: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel

2
Lý do nhà thống kê thường xuyên ở đây là ngu ngốc không phải vì anh ta là người thường xuyên, mà vì rõ ràng anh ta biết máy hoạt động như thế nào, do đó biết đó là một phép đo không phù hợp - và dù sao cũng suy luận.
rvl

Câu trả lời:


44

Vấn đề chính là thử nghiệm đầu tiên (Sun gone nova) không thể lặp lại, điều này khiến nó không phù hợp với phương pháp thường xuyên diễn giải xác suất như ước tính mức độ thường xuyên của một sự kiện mà chúng ta có thể lặp lại thử nghiệm nhiều lần. Ngược lại, xác suất bayes được hiểu là mức độ niềm tin của chúng tôi cung cấp tất cả các kiến ​​thức có sẵn trước đó, làm cho nó phù hợp với lý luận thông thường về các sự kiện một lần. Thí nghiệm ném xúc xắc có thể lặp lại, nhưng tôi thấy rất khó có người thường xuyên cố tình bỏ qua ảnh hưởng của thí nghiệm đầu tiên và rất tự tin về tầm quan trọng của kết quả thu được.

Mặc dù có vẻ như tác giả chế giễu sự phụ thuộc thường xuyên vào các thí nghiệm lặp lại và sự không tin tưởng của họ đối với các linh mục, khiến cho sự không phù hợp của thiết lập thí nghiệm đối với phương pháp luận thường xuyên, tôi nói rằng chủ đề thực sự của truyện tranh này không phải là phương pháp thường xuyên mà là mù quáng theo phương pháp không phù hợp nói chung. Dù điều đó có buồn cười hay không là tùy thuộc vào bạn (đối với tôi là như vậy) nhưng tôi nghĩ nó gây hiểu lầm nhiều hơn là làm rõ sự khác biệt giữa hai cách tiếp cận.


1
(1) Một tài liệu tham khảo thoải mái về vấn đề này mạnh mẽ và quan trọng giả định trong mọi trường hợp frequentism là suy luận thống kê trong khoa học (2000) , chương 1. (Mặc dù có rất nhiều vấn đề mà rất khó để nói cái nào là chính một)

36
Không quá nhanh với đối số lặp lại ... Đầu tiên, thí nghiệm có thể lặp lại là truy vấn của máy không phải là mặt trời đi nova Sự thật của điều đó là đối tượng suy luận cố định nhưng chưa biết. Thử nghiệm truy vấn chắc chắn có thể được lặp lại, và nếu được thêm vài lần nữa, chiến lược thường xuyên có thể dễ dàng có vẻ hợp lý.
liên hợp chiến binh

6
Thứ hai, dù sao đi nữa, người ta không nên quá nghiêm ngặt đối với hoạt động kinh doanh lặp lại, vì sợ rằng những người thường xuyên bị mắc kẹt không thể suy luận bất cứ điều gì trong các tình huống không thử nghiệm. Giả sử trong một khoảnh khắc, "mặt trời lặn" là sự kiện ứng cử viên. Tôi không phải là nhà vật lý, nhưng tôi đã nói rằng sự kiện "mặt trời đi nova" xảy ra khá thường xuyên (chỉ là không có nhiều ở đây) nên điều này đối với tôi như lặp lại. Trong mọi trường hợp, dân gian như David Cox (trong 'Cơ sở thống kê') vui vẻ nói những điều như: "sự lặp lại được dự tính gần như luôn luôn là giả thuyết . Điều này tự nó dường như không có nhược điểm".
liên hợp chiến binh

7
Chúng ta có thể xem mặt trời như một mẫu ngẫu nhiên từ một quần thể mặt trời trong các vũ trụ song song trong đó về nguyên tắc chúng ta có thể lặp lại thí nghiệm nếu chỉ có một chiếc gương lượng tử! ; o)
Dikran Marsupial

2
Tại sao việc kiểm tra mặt trời phát nổ có thể lặp lại? Tôi kiểm tra mỗi buổi sáng và nó vẫn chưa nổ tung.
GKFX

27

Theo như tôi có thể thấy bit thường xuyên là hợp lý cho đến nay:

Đặt là giả thuyết rằng mặt trời chưa nổ và H 1 là giả thuyết mà nó có. Do đó, giá trị p là xác suất quan sát kết quả (máy nói "có") dưới H 0 . Giả sử rằng máy phát hiện chính xác sự vắng mặt của neutrino, thì nếu máy nói "có" dưới H 0 thì đó là do máy đang nói dối chúng ta do kết quả của việc cán hai sáu. Do đó, giá trị p là 1/36, do đó, theo thông lệ khoa học bán bình thường, một người thường xuyên sẽ bác bỏ giả thuyết khống, ở mức ý nghĩa 95% .H0H1H0H0

Nhưng bác bỏ giả thuyết khống không có nghĩa là bạn có quyền chấp nhận giả thuyết thay thế, vì vậy kết luận của những người thường xuyên không được chứng minh bằng phân tích. Các bài kiểm tra giả thuyết thường xuyên thể hiện ý tưởng về sự giả mạo (loại), bạn không thể chứng minh bất cứ điều gì là đúng, chỉ từ chối. Vì vậy, nếu bạn muốn khẳng định , bạn giả sử H 0 là đúng và chỉ tiếp tục nếu bạn có thể cho thấy H 0 không phù hợp với dữ liệu. Tuy nhiên, điều đó không có nghĩa là H 1 là đúng, chỉ là nó sống sót qua thử nghiệm và tiếp tục như một giả thuyết khả thi ít nhất là cho đến thử nghiệm tiếp theo.H1H0H0H1

Bayesian cũng chỉ là lẽ thường, lưu ý rằng không có gì để mất bằng cách đặt cược. Tôi chắc chắn rằng các phương pháp tiếp cận thường xuyên, khi các chi phí dương tính giả và âm tính giả được tính đến (Neyman-Pory?) Sẽ đưa ra kết luận tương tự như là chiến lược tốt nhất về lợi ích lâu dài.

Tóm lại: Cả người thường xuyên và Bayesian đều cẩu thả ở đây: Người thường xuyên theo dõi một cách mù quáng một công thức mà không xem xét mức độ quan trọng thích hợp, chi phí dương / sai âm hoặc vật lý của vấn đề (nghĩa là không sử dụng ý thức chung của anh ta) . Bayesian đang cẩu thả vì không nói rõ các linh mục của mình, nhưng sau đó một lần nữa sử dụng lẽ thường mà các linh mục mà anh ta đang sử dụng rõ ràng là rất chính xác (nhiều khả năng là máy đang nói dối hơn mặt trời thực sự đã phát nổ), sự chậm chạp có lẽ là dễ chịu.


4
Từ chối giả thuyết khống chỉ đơn giản có nghĩa là việc quan sát sẽ khó xảy ra NẾU H0 là đúng. Bạn không nên "chấp nhận" H1 trên cơ sở này vì về cơ bản người ta nói rằng H1 phải đúng vì các quan sát sẽ khó xảy ra nếu H0 là đúng. Tuy nhiên, các quan sát cũng có thể khó xảy ra trong H1 (mà nghi thức null bỏ qua) và H1 có thể ít có khả năng hơn H0 a-prori (mà nghi thức null cũng bỏ qua). Chấp nhận các giả thuyết là một độ dốc trơn trượt đối với việc diễn giải một bài kiểm tra thường xuyên như một bài kiểm tra Bayes, thường dẫn đến sự hiểu lầm trong các trường hợp ít cơ bản hơn.
Dikran Marsupial

4
Chỉ vấp phải bình luận của bạn. Và tôi có cùng một câu hỏi mà @lassy đã có. Tôi muốn phản đối nhận xét của bạn rằng nếu các giả thuyết của bạn bao trùm toàn bộ không gian của các sự kiện, thì đây là {"Sun đã biến thành nova", "Sun did not nova"}, tôi gặp khó khăn trong việc hiểu quan điểm của bạn về cách từ chối " Sun đã đi nova "không tự động dẫn đến" Sun did not nova ". Tuyên bố một tuyên bố sai ngụ ý phủ định của nó phải đúng. Sẽ thật tuyệt nếu bạn coul cung cấp một số văn bản tham khảo đáng tin cậy trong đó điểm này được giải thích rõ ràng nếu có thể. Tôi muốn được tìm hiểu thêm về nó.
có nghĩa là

3
Từ chối giả thuyết null không tự động có nghĩa là giả thuyết null có thể sai, chỉ là nó hợp lý để tiếp tục với giả thuyết thay thế. Điều này là (một phần) bởi vì thử nghiệm giả thuyết thường xuyên không tính đến xác suất trước đó của các giả thuyết. Về cơ bản hơn, các phương pháp thường xuyên không thể được sử dụng để gán xác suất cho sự thật của bất kỳ giả thuyết cụ thể nào, vì vậy liên kết giữa "chúng ta có thể bác bỏ giả thuyết khống" và "giả thuyết null có thể sai" là hoàn toàn chủ quan, theo như Tôi có thể thấy.
Dikran Marsupial

2
Đây là một quan điểm của tôi, quyết định về việc liệu chúng tôi có chấp nhận H1 là chủ quan hay không là kết quả cần thiết của kết quả của thử nghiệm "từ chối H0 thường dẫn đến chấp nhận H1". Vấn đề là thông tin bạn cần để đưa ra quyết định [P (H0), P (H1), P (Z | H1)] không xuất hiện trong thử nghiệm. Về cơ bản, một số thông tin này được bao gồm một phần trong việc thiết lập ngưỡng, nhưng điều này thường không đầy đủ và thường không được nêu ra và không chính đáng. Các linh mục vẫn còn ở đó trong các bài kiểm tra thường xuyên, chủ quan như nhau, nhưng lại ẩn ý - điều tồi tệ nhất của cả hai thế giới! ; o)
Dikran Marsupial

3
@Dikran, tôi đoán chúng tôi hiểu nhau cũng khác và nên ngừng lạm dụng phần ý kiến, nhưng có một nhận xét cuối cùng: Tôi chủ quan chọn chấp nhận H1 nếu tôi chủ quan chọn để từ chối [amip-chối] H0 dựa trên tôi một cách chủ quan chọn dựa trên của tôi đánh giá chuyên môn chủ quan của P (H1). Nói rằng "Tôi không bị buộc phải chấp nhận H1 chỉ vì tôi có thể từ chối H0" không có ý nghĩa ngôn ngữ. Nhưng tôi đồng ý rằng "Tôi không bị buộc phải chấp nhận H1 chỉ vì tôi có thể từ chối H0 ở mức 5%". Quan điểm chính của tôi: có thể từ chối H0 ở mức 5% từ chối . α
amip

25

Tại sao kết quả này có vẻ "sai?" Một người Bayes sẽ nói rằng kết quả này có vẻ phản trực giác bởi vì chúng ta có niềm tin "trước" về việc khi nào mặt trời sẽ nổ tung, và bằng chứng được cung cấp bởi cỗ máy này không đủ để rửa sạch những niềm tin đó (chủ yếu là do sự không chắc chắn của nó lật đồng xu). Nhưng một người thường xuyên có thể đưa ra đánh giá như vậy, anh ta chỉ đơn giản là phải làm như vậy trong bối cảnh dữ liệu, trái ngược với niềm tin.

Nguồn gốc thực sự của nghịch lý là thực tế là kiểm tra thống kê thường xuyên được thực hiện không tính đến tất cả các dữ liệu có sẵn. Không có vấn đề gì với phân tích trong truyện tranh, nhưng kết quả có vẻ kỳ lạ bởi vì chúng ta biết rằng mặt trời rất có thể sẽ không nổ trong một thời gian dài. Nhưng làm thế nào để chúng ta biết điều này? Bởi vì chúng tôi đã thực hiện các phép đo, quan sát và mô phỏng có thể hạn chế khi mặt trời sẽ nổ. Vì vậy, kiến ​​thức đầy đủ của chúng tôi nên tính đến các phép đo và điểm dữ liệu đó.

Trong phân tích Bayes, điều này được thực hiện bằng cách sử dụng các phép đo đó để xây dựng trước (mặc dù, quy trình biến số đo thành ưu tiên không được xác định rõ: tại một số điểm phải có trước đó, hoặc nếu không thì "rùa đường xuống "). Vì vậy, khi Bayes sử dụng trước, anh ta thực sự tính đến rất nhiều thông tin bổ sung mà phân tích giá trị p của người thường xuyên không biết.

Vì vậy, để duy trì bình đẳng, một phân tích thường xuyên đầy đủ về vấn đề nên bao gồm cùng một dữ liệu bổ sung về vụ nổ mặt trời được sử dụng để xây dựng bayesian trước đó. Nhưng, thay vì sử dụng các linh mục, một người thường xuyên sẽ đơn giản mở rộng khả năng anh ta sử dụng để kết hợp các phép đo khác đó, và giá trị p của anh ta sẽ được tính bằng khả năng đầy đủ đó.

(Máy nói Có | Mặt trời đã nổ) * LL=LL (Tất cả dữ liệu khác về mặt trời | Mặt trời đã nổ)

Một phân tích thường xuyên đầy đủ rất có thể sẽ chỉ ra rằng phần thứ hai của khả năng sẽ hạn chế hơn nhiều và sẽ là đóng góp chi phối cho tính toán giá trị p (vì chúng ta có rất nhiều thông tin về mặt trời và các lỗi về thông tin này là nhỏ (hy vọng)).

Thực tế, người ta không cần phải ra ngoài và thu thập tất cả các điểm dữ liệu thu được từ 500 năm trước để thực hiện phép tính thường xuyên, người ta có thể ước chừng chúng là một thuật ngữ khả năng đơn giản mã hóa sự không chắc chắn về việc mặt trời có nổ hay không. Điều này sau đó sẽ trở nên giống với trước của Bayes, nhưng nó hơi khác về mặt triết học bởi vì đó là khả năng, có nghĩa là nó mã hóa một số phép đo trước đó (trái ngược với trước, mã hóa một niềm tin tiên nghiệm). Thuật ngữ mới này sẽ trở thành một phần của khả năng và sẽ được sử dụng để xây dựng các khoảng tin cậy (hoặc giá trị p hoặc bất cứ điều gì), trái ngược với bayesian trước, được tích hợp để tạo thành các khoảng tin cậy hoặc sau.


1
Đây phải là câu trả lời được chấp nhận hoặc bỏ phiếu nhiều nhất.
Amelio Vazquez-Reina

11

ptTProb[Tt|H0]Tχ2p0,1/36,2/36,Giáo dục

Tất nhiên, cách tiếp cận "thường xuyên" này là không khoa học, vì kết quả sẽ khó có thể lặp lại. Khi Sun đi siêu tân tinh, nó vẫn là siêu tân tinh, vì vậy máy dò phải liên tục nói "Có" nhiều lần. Tuy nhiên, việc chạy lại máy này nhiều lần không có khả năng mang lại kết quả "Có" một lần nữa. Điều này được công nhận ở những khu vực muốn thể hiện bản thân nghiêm ngặt và cố gắng tái tạo kết quả thử nghiệm của họ ... theo như tôi hiểu, xảy ra với xác suất ở bất cứ đâu giữa 5% (xuất bản bài báo gốc là lỗi loại I thuần túy) và đâu đó khoảng 30-40% trong một số lĩnh vực y tế. Những người phân tích tổng hợp có thể cung cấp cho bạn những con số tốt hơn, đây chỉ là tiếng vang tình cờ gặp tôi qua các số liệu thống kê nho.

Một vấn đề khác từ quan điểm thường xuyên "đúng đắn" là lăn súc sắc là thử nghiệm ít mạnh nhất, với mức công suất = mức ý nghĩa (nếu không thấp hơn; 2,7% công suất cho mức ý nghĩa 5% là không có gì để tự hào). Lý thuyết Neyman-Pearson cho các bài kiểm tra t đã thống nhất chứng minh rằng đây là UMPT, và rất nhiều lý thuyết thống kê trán cao (mà tôi hầu như không hiểu, tôi phải thừa nhận) được dành cho việc tạo ra các đường cong sức mạnh và tìm ra các điều kiện khi đưa ra kiểm tra là mạnh nhất trong một lớp nhất định. (Tín dụng: @Dikran Marsupial đã đề cập đến vấn đề quyền lực trong một trong những bình luận.)

Tôi không biết điều này có làm phiền bạn không, nhưng nhà thống kê Bayes được chỉ ra ở đây là người không biết toán và có vấn đề đánh bạc. Một nhà thống kê Bayes thích hợp sẽ đưa ra giả thuyết trước, thảo luận về mức độ khách quan của nó, rút ​​ra hậu thế và chứng minh họ đã học được bao nhiêu từ dữ liệu. Không có điều gì được thực hiện, vì vậy quy trình Bayes đã được áp dụng quá mức giống như quy trình thường xuyên.

Tình huống này cho thấy sàng lọc cổ điển cho vấn đề ung thư (và tôi chắc chắn các nhà sinh học có thể mô tả nó tốt hơn tôi có thể). Khi sàng lọc một căn bệnh hiếm gặp bằng một dụng cụ không hoàn hảo, hầu hết các kết quả dương tính đều là dương tính giả. Các nhà thống kê thông minh biết điều đó, và biết rõ hơn để theo dõi các sàng lọc rẻ tiền và bẩn với các sinh thiết chính xác và đắt tiền hơn.


2
Nếu tôi hiểu chính xác đoạn đầu tiên của bạn, bạn đang nói rằng ngưỡng (0,05 trong truyện tranh) được đặt quá cao. Nếu truyện tranh có năm viên xí ngầu thay vì hai, bạn có chấp nhận ngưỡng là đủ thấp không? Làm thế nào để bạn quyết định ngưỡng nào?
ShreevatsaR

9
Tôi nghĩ rằng nhà thống kê Bayes chỉ đơn giản là tính đến việc cơ hội mặt trời nổ tung là rất nhiều, nhỏ hơn nhiều so với cơ hội của cỗ máy nói dối (vì vậy, không nhất thiết là một con bạc không biết gì).
Josh

8
Thêm vào đó: Nếu mặt trời lặn, người thắng cược sẽ không thể kiếm được 50 đô la ...
kjetil b halvorsen

6
Tôi nghĩ vấn đề ở đây là nhà thống kê thường xuyên đang theo một công thức mà không nghĩ đến mục đích thực sự của phân tích. Cái gọi là "Bayes" không thực sự là một Bayes, chỉ là một người sử dụng ý thức chung của họ. Có rất nhiều ví dụ về công thức mù sau các tạp chí khoa học, đó là lý do tại sao phim hoạt hình gây cười.
Dikran Marsupial

3
Thiếu thống kê kiểm tra không thể là vấn đề tôi không nghĩ tới. Một thống kê kiểm tra chỉ là một số chức năng của dữ liệu. Vì vậy, hàm nhận dạng, tức là ở đây chính mốc, sẽ xuất hiện để hoạt động, ít nhất là về nguyên tắc.
liên hợp chiến binh

6

Không có gì sai với truyện tranh này, và lý do không liên quan gì đến thống kê. Đó là kinh tế. Nếu người thường xuyên là chính xác, Trái đất sẽ tương đương với không thể ở được trong vòng 48 giờ. Giá trị $ 50 sẽ có hiệu lực null. Bayesian, nhận ra điều này, có thể đặt cược khi biết rằng lợi ích của anh ta là 50 đô la trong trường hợp bình thường, và không có gì trong trường hợp nổ tung mặt trời.


Điều này "có liên quan đến thống kê" vì thống kê Bayes mô hình rõ ràng điều này là "giảm thiểu chức năng mất";)
Fabio Beltramini

5

Bây giờ Cern đã quyết định rằng neutrino không nhanh hơn ánh sáng - mặt trận sốc bức xạ điện từ sẽ tấn công trái đất trước khi thay đổi neutrino được chú ý. Điều này sẽ có ít nhất (trong thời gian rất ngắn) hiệu ứng cực quang ngoạn mục. Do đó, thực tế là trời tối sẽ không ngăn được bầu trời được thắp sáng; mặt trăng từ tỏa sáng quá mức (cf "Mặt trăng bất tử" của Larry Niven) và những tia sáng ngoạn mục khi các vệ tinh nhân tạo bị bốc hơi và tự bốc cháy.

Tất cả trong tất cả - có lẽ thử nghiệm sai? (Và trong khi có thể có trước - sẽ không đủ thời gian để xác định thực tế về hậu thế.


1
Tất cả lý do nhiều hơn để bác bỏ giả thuyết rằng mặt trời đã nổ tung, sau đó. :-)
ShreevatsaR

Vì vậy, đây là những gì có nghĩa là ở cuối bài viết khi các tác giả nói: "cần nghiên cứu xác nhận"?
DWin

Trên thực tế, tình cờ xem lại điều này, suy luận rõ ràng là trong tiêu đề. Máy phát hiện xem mặt trời đã đi xa chưa. Không có cơ hội lỗi trong phát hiện. Các bit neutrino là không liên quan. Do đó, các số liệu thống kê sao cho máy sẽ trả lời "không", "không", "không" ... với khả năng 1/36 là tuyên bố sai (có) cho đến khi một sự kiện tắt kết thúc thống kê quá trình xảy ra - điều này cũng sẽ có 1/36 cơ hội được báo cáo sai (không), nếu máy được truy vấn trong khoảng thời gian 8 phút lẻ, nó sẽ trở nên rõ ràng trên trái đất.
SimonN

4

Tôi đồng ý với @GeorgeLewis rằng có thể còn sớm để kết luận cách tiếp cận Thường xuyên là sai - hãy chạy lại máy dò neutrino nhiều lần để thu thập thêm dữ liệu. Không cần phải loay hoay với các linh mục.


2

Một điểm đơn giản hơn có thể bị mất trong số tất cả các câu trả lời dài dòng ở đây là người thường xuyên được miêu tả rút ra kết luận của mình dựa trên một mẫu duy nhất. Trong thực tế, bạn sẽ không bao giờ làm điều này.

Để đạt được kết luận hợp lệ đòi hỏi một cỡ mẫu có ý nghĩa thống kê (hay nói cách khác, khoa học cần phải được lặp lại). Vì vậy, trong thực tế, người thường xuyên sẽ chạy máy nhiều lần và sau đó đưa ra kết luận về dữ liệu kết quả.

Có lẽ điều này sẽ đòi hỏi phải hỏi máy cùng một câu hỏi nhiều lần nữa. Và có lẽ nếu máy chỉ sai 1 trong số 36 lần thì một mẫu rõ ràng sẽ xuất hiện. Và từ mô hình đó (thay vì sau một lần đọc), người thường xuyên sẽ rút ra một kết luận (khá chính xác, tôi sẽ nói) về việc mặt trời có nổ hay không.


4
Bạn có ý nghĩa gì bởi "cỡ mẫu có ý nghĩa thống kê"?
Momo

@Momo - Nhiều hơn một mẫu, chắc chắn là vậy. Không có giá trị để quan sát một kết quả không thể xảy ra và sau đó đưa ra kết luận rằng điều không thể xảy ra đã xảy ra mà không cần lặp lại quan sát để đảm bảo rằng đó không phải là một sự thay đổi. Nếu bạn muốn một số chính xác đại diện cho cỡ mẫu có ý nghĩa thống kê hoặc thuật toán để xác định một số chính xác, có lẽ một nhà thống kê có thể cung cấp một số; nhưng tôi không phải là một nhà thống kê.
aroth

3
Tôi không nghĩ có một vấn đề cụ thể với kích thước mẫu là 1 là vấn đề, vấn đề là thử nghiệm không có sức mạnh thống kê (tức là thử nghiệm sẽ không bao giờ bác bỏ giả thuyết khống khi nó sai). Tuy nhiên, điều này cho thấy một vấn đề với "nghi thức null" được đưa ra trong bài viết, trong đó bỏ qua vấn đề về sức mạnh thống kê (và thực chất H1 là gì, hoặc thông tin trước có liên quan đến vấn đề).
Dikran Marsupial

1
@Dikran Đó là một trong những câu trả lời tốt nhất có thể! Vấn đề với "người thường xuyên" trong phim hoạt hình là một nghi thức thống kê cụ thể đã được thực hiện mà không cần tiến hành đánh giá cần thiết về các tính chất của bài kiểm tra. (Người ta thậm chí có thể mở rộng phân tích của bạn bằng cách xem xét chức năng mất mát có liên quan cho quyết định này là gì.) Như vậy phim hoạt hình sẽ xiên gọn tất cả những người sử dụng các thủ tục thống kê mà không hiểu chúng hoặc kiểm tra các giả định của họ.
whuber

2

Câu trả lời cho câu hỏi của bạn: "anh ấy có áp dụng đúng phương pháp thường xuyên không?" là không, ông không áp dụng chính xác cách tiếp cận thường xuyên. Giá trị p cho vấn đề này không chính xác bằng 1/36.

Trước tiên chúng ta phải lưu ý rằng các giả thuyết liên quan là

H0: Mặt trời chưa nổ,

H1: Mặt trời đã nổ tung.

Sau đó,

p-value = P ("máy trả về có" | Mặt trời chưa nổ).

Để tính xác suất này, chúng ta phải lưu ý rằng "máy trả về có" tương đương với "máy dò neutrino đo Mặt trời nổ VÀ cho kết quả đúng HOẶC máy dò neutrino không đo Mặt trời nổ VÀ nói dối chúng ta".

Giả sử rằng việc ném xúc xắc là độc lập với phép đo máy dò neutrino, chúng ta có thể tính giá trị p bằng cách xác định:

p0 = P ("máy dò neutrino đo Mặt trời nổ" | Mặt trời chưa nổ),

Sau đó, giá trị p là

p-value = p0 x 35/4 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

Đối với vấn đề này, giá trị p là một số trong khoảng từ 1/36 đến 35/4. Giá trị p bằng 1/36 khi và chỉ khi p0 = 0. Đó là, một giả định ẩn trong phim hoạt hình này là máy dò sẽ không bao giờ đo được Mặt trời phát nổ nếu Mặt trời chưa nổ.

Hơn nữa, nhiều thông tin nên được chèn vào khả năng về bằng chứng bên ngoài của vụ nổ anova đang diễn ra.

Tất cả tốt nhất.


1

Tôi không thấy bất kỳ vấn đề với cách tiếp cận thường xuyên. Nếu giả thuyết null bị từ chối, giá trị p là xác suất của lỗi loại 1. Một lỗi loại 1 đang từ chối một giả thuyết null thực sự. Trong trường hợp này, chúng ta có giá trị p là 0,028. Điều này có nghĩa là trong số tất cả các thử nghiệm giả thuyết với giá trị p này từng được tiến hành, khoảng 3 trong số một trăm sẽ từ chối một giả thuyết null thực sự. Bằng cách xây dựng, đây sẽ là một trong những trường hợp đó. Những người thường xuyên chấp nhận rằng đôi khi họ sẽ từ chối giả thuyết null thực sự hoặc giữ lại giả thuyết null sai (lỗi Loại 2), họ chưa bao giờ tuyên bố khác. Hơn nữa, họ định lượng chính xác tần suất suy luận sai lầm của họ trong thời gian dài.

Có lẽ, một cách ít nhầm lẫn hơn khi nhìn vào kết quả này là trao đổi vai trò của các giả thuyết. Vì hai giả thuyết rất đơn giản, điều này rất dễ thực hiện. Nếu null là mặt trời đi nova, thì giá trị p là 35/36 = 0,972. Điều này có nghĩa là đây không phải là bằng chứng chống lại giả thuyết rằng mặt trời đã trở nên mới, vì vậy chúng ta không thể từ chối nó dựa trên kết quả này. Điều này có vẻ hợp lý hơn. Nếu bạn đang suy nghĩ. Tại sao mọi người sẽ cho rằng mặt trời đã đi nova? Tôi sẽ hỏi bạn. Tại sao mọi người sẽ thực hiện một thí nghiệm như vậy nếu suy nghĩ về mặt trời nổ tung có vẻ vô lý?

Tôi nghĩ rằng điều này chỉ cho thấy rằng người ta phải đánh giá tính hữu ích của một thử nghiệm trước đó. Ví dụ, thí nghiệm này sẽ hoàn toàn vô dụng vì nó kiểm tra thứ mà chúng ta đã biết chỉ đơn giản là nhìn lên trời (mà tôi chắc chắn tạo ra giá trị p có giá trị bằng 0). Thiết kế một thí nghiệm tốt là một yêu cầu để tạo ra khoa học tốt. Nếu thử nghiệm của bạn được thiết kế kém, thì cho dù bạn sử dụng công cụ suy luận thống kê nào, kết quả của bạn dường như không hữu ích.


Chắc chắn, nhưng Bayes vẫn có thể suy ra một kết luận hợp lý với kết quả dữ liệu / thử nghiệm đã cho . Đôi khi bạn không thể lặp lại một thử nghiệm hoặc thiết kế nó theo cách bạn muốn.
Amelio Vazquez-Reina

Đó là một điểm công bằng, suy luận Bayes có thể dễ dàng kết hợp kinh nghiệm trước đây khiến cho kết quả phi thường khó có trọng số thống kê hơn (Nó bảo vệ chúng ta chống lại sáo thống kê). Tuy nhiên, đây cũng là một thử nghiệm vô dụng trong khuôn khổ Bayes. Ưu tiên rất ủng hộ một kết luận mà không có kết quả nào trong thí nghiệm này có thể thay đổi nó. Nếu trước đó là rất mạnh. Tại sao thực hiện một thí nghiệm không có cơ hội sửa đổi nó? Khi xem xét các linh mục yếu (Có khả năng bị thay đổi bởi dữ liệu), tôi nghĩ rằng các phương pháp Bayes và Thường xuyên thường mang lại kết quả "tương đương".
Jose Garmilla

0

Làm thế nào để tích hợp "kiến thức trước" về sự ổn định của mặt trời trong phương pháp thường xuyên?

Chủ đề rất thú vị.

Đây chỉ là một số suy nghĩ, không phải là một phân tích hoàn hảo ...

Sử dụng phương pháp Bayes với một cách không phù hợp trước thường cung cấp một suy luận thống kê có thể so sánh với phương pháp thường xuyên.

Tại sao người Bayes có niềm tin mạnh mẽ trước rằng mặt trời chưa nổ? Bởi vì anh ấy biết như mọi người rằng mặt trời chưa bao giờ nổ tung kể từ khi bắt đầu.

Chúng ta có thể thấy trên một số mô hình thống kê đơn giản với các linh mục liên hợp rằng sử dụng phân phối trước tương đương với sử dụng phân phối sau có nguồn gốc từ các thí nghiệm sơ bộ và sơ bộ không nhiễm trùng.

Câu trên cho thấy Người thường xuyên nên kết luận là người Bayes bằng cách đưa kết quả của các thí nghiệm sơ bộ vào mô hình của mình. Và đây là những gì Bayes thực sự làm : ưu tiên của anh xuất phát từ kiến ​​thức về các thí nghiệm sơ bộ!

VIẾT SAI RỒIxTôiTôixTôiθxTôixTôi= =1Tôi= =1,Giáo dục,VIẾT SAI RỒI

VIẾT SAI RỒI+1xTôiy= ={Đúng}Pr(xVIẾT SAI RỒI+1= =0)θθx1,Giáo dục,xVIẾT SAI RỒIy1VIẾT SAI RỒIy= ={Đúng}θθ

H0= ={mặt trời chưa nổ}


Đoạn văn "... anh ấy biết như mọi người rằng mặt trời chưa bao giờ nổ tung kể từ khi bắt đầu" mang đến một câu chuyện về một kỳ nghỉ gần đây của người Mỹ, nơi hàng triệu con gà tây ( Meleagris gallopavo ) được tiêu thụ. Thời gian trôi qua, mỗi ngày, bất kỳ con gà tây thông minh nào cũng "biết như mọi người" rằng cô sẽ được cho ăn và chăm sóc, cho đến ngày định mệnh (và hoàn toàn bất ngờ - với cô) vào giữa tháng 11! Tương tự như vậy, niềm tin của chúng tôi vào sự ổn định của mặt trời phải thấp nếu tất cả những gì chúng tôi phải dựa vào là lịch sử quan sát tương đối ngắn của con người về nó.
whuber

@whuber Tôi muốn gửi cho bạn tin nhắn này một cách riêng tư. Có một mối liên hệ giữa bình luận của bạn và chủ đề thảo luận? Tôi không biết có phải chính tôi đã tạo ra ý tưởng cho tôi không, nhưng đã nhiều lần tôi cảm thấy rằng bạn nhận xét về câu trả lời của tôi chủ yếu để nói điều gì đó chống lại câu trả lời của tôi. Bài tập do OP đặt ra là diễn giải một bộ phim hoạt hình và tôi cảm thấy rằng bạn chỉ trích câu trả lời của tôi như thể tôi đang nói về một vấn đề thực sự. Gần đây tôi không đánh giá cao và tôi vẫn không hiểu tại sao bạn gợi lên một "ý định" có khả năng đằng sau câu trả lời của tôi.
Stéphane Laurent

Không có lời chỉ trích, ngụ ý hay dự định: đôi khi một bình luận thực sự chỉ là ... một bình luận. Nó đã cố gắng làm nổi bật (theo cách có ý định hài hước) những câu hỏi quan trọng được gợi ý nhưng không được giải quyết trong câu trả lời của bạn. Tôi xin lỗi vì bạn cho rằng đây là một cuộc tấn công cá nhân hoặc là một cuộc tấn công. BTW, đây một câu hỏi thực sự: nó hỏi Làm thế nào để tích hợp "kiến thức trước" ... trong phương pháp thường xuyên? Câu hỏi này gợi lên sự chỉ trích của Hume về suy luận quy nạp và đi đến các vấn đề trong triết học của khoa học cũng như các nền tảng của thống kê. Đó là giá trị suy nghĩ cẩn thận!
whuber

Cũng có thể đáng để chỉ ra rằng, một tỷ lệ đáng kể trong danh tiếng của bạn là do phiếu bầu của tôi cho câu trả lời của bạn - mà tôi đưa ra làm bằng chứng vật chất rằng không có hành vi có hệ thống nào từ phía tôi chống lại bạn.
ai

2
Không, tôi đã hiểu nhận xét của bạn. Bản dịch tiếng Pháp của Google về nhận xét của bạn đã lạ, nhưng bằng cách kết hợp các kỹ năng của tôi bằng tiếng Anh và các bản dịch lạ của Google, tôi có thể có được bản dịch chính xác. Tôi sẽ thư giãn hơn vào tháng tới, có khả năng.
Stéphane Laurent

0

Tất nhiên đây là một bài kiểm tra mức 0,05 thường xuyên - giả thuyết null bị từ chối dưới 5% thời gian theo giả thuyết null và thậm chí sức mạnh dưới sự thay thế là rất lớn.

Mặt khác, thông tin trước cho chúng ta biết rằng mặt trời sẽ trở thành siêu tân tinh tại một thời điểm cụ thể là rất khó xảy ra, nhưng việc nói dối một cách tình cờ có nhiều khả năng.

Điểm mấu chốt: thực sự không có gì sai với truyện tranh và nó cho thấy việc kiểm tra các giả thuyết không hợp lý dẫn đến tỷ lệ phát hiện sai cao. Ngoài ra, bạn có thể muốn đưa thông tin trước vào đánh giá của mình về các cược được cung cấp - đó là lý do tại sao một hậu thế Bayes kết hợp với phân tích quyết định rất phổ biến.


-2

Theo quan điểm của tôi, một phân tích thường xuyên chính xác hơn sẽ như sau: H0: Mặt trời đã nổ tung và cỗ máy đang nói sự thật. H1: Mặt trời chưa nổ và máy đang nằm.

Giá trị p ở đây là = P (mặt trời phát nổ). p (máy đang nói sự thật) = 0,97. P (mặt trời nổ tung)

Nhà thống kê không thể kết luận bất cứ điều gì mà không biết bản chất của xác suất thứ hai.

Mặc dù chúng ta biết rằng P (mặt trời phát nổ) là 0, vì mặt trời như những ngôi sao không nổ tung thành siêu tân tinh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.