ASA thảo luận về những hạn chế của giá trị - các lựa chọn thay thế là gì?


100

Chúng tôi đã có nhiều luồng được gắn thẻ là cho thấy nhiều hiểu lầm về chúng. Mười tháng trước, chúng tôi đã có một chủ đề về tạp chí tâm lý rằng "cấm" -valuespp , bây giờ Hiệp hội thống kê Mỹ (2016) nói rằng với phân tích của chúng tôi, chúng tôi "không nên kết thúc với việc tính toán của một -giá trị".p

Hiệp hội Thống kê Hoa Kỳ (ASA) tin rằng cộng đồng khoa học có thể được hưởng lợi từ một tuyên bố chính thức làm rõ một số nguyên tắc được thống nhất rộng rãi dựa trên việc sử dụng và giải thích hợp lý giá trị .p

Ủy ban liệt kê các cách tiếp cận khác có thể thay thế hoặc bổ sung cho giá trị :p

Theo quan điểm về sự lạm dụng phổ biến và những quan niệm sai lầm liên quan đến giá trị , một số nhà thống kê thích bổ sung hoặc thậm chí thay thế giá trị bằng các phương pháp khác. Chúng bao gồm các phương pháp nhấn mạnh ước tính qua kiểm tra, chẳng hạn như độ tin cậy, độ tin cậy hoặc khoảng dự đoán; Phương pháp Bayes; các biện pháp thay thế bằng chứng, chẳng hạn như tỷ lệ khả năng hoặc yếu tố Bayes; và các phương pháp khác như mô hình lý thuyết quyết định và tỷ lệ phát hiện sai. Tất cả các biện pháp và phương pháp tiếp cận này dựa trên các giả định xa hơn, nhưng chúng có thể giải quyết trực tiếp hơn kích thước của một hiệu ứng (và sự không chắc chắn liên quan của nó) hoặc liệu giả thuyết này có đúng hay không.ppp

Vì vậy, hãy tưởng tượng hậu -values thực tế. ASA liệt kê một số phương pháp có thể được sử dụng thay cho giá trị , nhưng tại sao chúng tốt hơn? Ai trong số họ có thể là người thay thế ngoài đời thực cho một nhà nghiên cứu đã sử dụng giá trị cho cả cuộc đời mình? Tôi tưởng tượng rằng loại câu hỏi sẽ xuất hiện trong sự nghiệp hậu thực tế -values, như vậy có lẽ chúng ta hãy cố gắng để được đi trước một bước trong số họ. Sự thay thế hợp lý có thể được áp dụng ngoài luồng là gì? Tại sao phương pháp này nên thuyết phục nhà nghiên cứu chính, biên tập viên hoặc độc giả của bạn?p p ppppp

Như mục blog tiếp theo này cho thấy, giá trị là vô địch trong sự đơn giản của chúng:p

Giá trị p chỉ yêu cầu một mô hình thống kê cho hành vi của một thống kê theo giả thuyết null để giữ. Ngay cả khi một mô hình của một giả thuyết thay thế được sử dụng để chọn một thống kê về mức độ tốt (đó sẽ được sử dụng để xây dựng giá trị p), thì mô hình thay thế này không phải là chính xác để giá trị p có giá trị và hữu ích (ví dụ: lỗi điều khiển loại I ở mức mong muốn trong khi cung cấp một số sức mạnh để phát hiện hiệu ứng thực sự). Ngược lại, các phương pháp thống kê khác (tuyệt vời và hữu ích) như tỷ lệ khả năng, ước lượng kích thước hiệu ứng, khoảng tin cậy hoặc phương pháp Bayes đều cần các mô hình giả định để xử lý một phạm vi rộng hơn, không chỉ trong phạm vi thử nghiệm.

Là họ, hoặc có thể nó không đúng và chúng ta có thể dễ dàng thay thế chúng?

Tôi biết, điều này rất rộng, nhưng câu hỏi chính rất đơn giản: cái gì là tốt nhất (và tại sao), thay thế thực tế cho giá trị có thể được sử dụng thay thế?p


ASA (2016). ASA Tuyên bố về Ý nghĩa thống kê và -values. P Nhà thống kê người Mỹ. (báo chí)


3
Giới hạn để trở thành một câu hỏi kinh điển +1! Cách tiếp cận Bayes, vì nó cho phép chúng tôi (ít nhất là chủ quan) trả lời câu hỏi mà chúng tôi thường quan tâm, viz.: "Trong các bằng chứng (dữ liệu), xác suất mà giả thuyết là đúng là gì?"
Christoph Hanck

9
"Sau thông thực tế -giá trị" có một vòng đen tối thoải mái với nó. p
Marc Claesen

4
Các tài liệu thảo luận được đăng cùng với tuyên bố ASA rất đáng đọc vì một số trong số họ có đề xuất về những gì có thể thay thế giá trị p. Nội dung bổ sung
Seth

2
Tôi đã đăng một câu hỏi liên quan dựa trên một phần khác của báo cáo ASA, một trong những cảnh báo của nó về sự lạm dụng tiềm năng của giá trị p: Chúng ta biết bao nhiêu về hack p?
Cá bạc

1
Như một bình luận cho câu hỏi của riêng tôi, có một chủ đề hay thảo luận về chủ đề tương tự: stats.stackexchange.com/questions/17897/ Kẻ
Tim

Câu trả lời:


100

Tôi sẽ tập trung câu trả lời này vào câu hỏi cụ thể về các lựa chọn thay thế cho giá trị gì.p

21 bài thảo luận được xuất bản cùng với tuyên bố ASA (dưới dạng Tài liệu bổ sung): của Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Stewamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark và Steve Ziliak (một số người đã viết cùng nhau ; Tôi liệt kê tất cả cho các tìm kiếm trong tương lai). Những người này có thể bao gồm tất cả các ý kiến ​​hiện có về giá trị và suy luận thống kê.p

Tôi đã xem qua tất cả 21 giấy tờ.

Thật không may, hầu hết trong số họ không thảo luận về bất kỳ sự thay thế thực sự nào, mặc dù phần lớn là về những hạn chế, hiểu lầm và nhiều vấn đề khác với giá trị (để bảo vệ giá trị , xem Stewamini, Mayo và Senn). Điều này đã gợi ý rằng các lựa chọn thay thế, nếu có, không dễ tìm và / hoặc để bảo vệ.ppp

Vì vậy, chúng ta hãy xem danh sách "các cách tiếp cận khác" được đưa ra trong chính tuyên bố ASA (như được trích dẫn trong câu hỏi của bạn):

[Các cách tiếp cận khác] bao gồm các phương pháp nhấn mạnh vào ước tính trong thử nghiệm, chẳng hạn như độ tin cậy, độ tin cậy hoặc khoảng dự đoán; Phương pháp Bayes; các biện pháp thay thế bằng chứng, chẳng hạn như tỷ lệ khả năng hoặc yếu tố Bayes; và các phương pháp khác như mô hình lý thuyết quyết định và tỷ lệ phát hiện sai.

  1. Khoảng tin cậy

    Khoảng tin cậy là một công cụ thường xuyên đi đôi với giá trị ; báo cáo một khoảng tin cậy (hoặc một số tương đương, ví dụ, có nghĩa là sai số chuẩn của giá trị trung bình) cùng với -giá trị là gần như luôn luôn là một ý tưởng tốt.± pp±p

    Một số người (không phải trong số những người tranh chấp ASA) đề xuất rằng khoảng tin cậy nên thay thế giá trị . Một trong những người ủng hộ thẳng thắn nhất của phương pháp này là Geoff Cumming, người gọi đó là số liệu thống kê mới (một cái tên mà tôi thấy kinh khủng). Xem ví dụ bài đăng trên blog này của Ulrich Schimmack để biết phê bình chi tiết: Đánh giá quan trọng về thống kê mới của Cumming (2014): Bán lại số liệu thống kê cũ dưới dạng thống kê mới . Xem thêm Chúng tôi không thể đủ khả năng nghiên cứu kích thước hiệu ứng trong bài đăng trên blog của phòng thí nghiệm của Uri Simonsohn cho một điểm liên quan.p

    Cũng xem chủ đề này (và câu trả lời của tôi trong đó) về đề xuất tương tự của Norm Matloff nơi tôi lập luận rằng khi báo cáo các TCTD, người ta vẫn muốn có các giá trị được báo cáo: Một ví dụ hay, thuyết phục trong đó giá trị p là gì rất hữu ích?p

    Tuy nhiên, một số người khác (không phải trong số những người tranh chấp ASA), cho rằng khoảng tin cậy, là một công cụ thường xuyên, cũng bị nhầm lẫn như giá trị và cũng nên được xử lý. Xem, ví dụ, Morey et al. 2015, Sự sai lầm của việc đặt niềm tin vào khoảng tin cậy được liên kết bởi @Tim ở đây trong các bình luận. Đây là một cuộc tranh luận rất cũ.p

  2. Phương pháp Bayes

    (Tôi không thích cách tuyên bố ASA xây dựng danh sách. Các khoảng tin cậy và các yếu tố Bayes được liệt kê tách biệt với "phương pháp Bayes", nhưng chúng rõ ràng là các công cụ Bayes. Vì vậy, tôi đếm chúng ở đây.)

    • Có một tài liệu rất lớn và rất được tranh luận về cuộc tranh luận Bayesian và thường xuyên. Xem, ví dụ, chủ đề gần đây này cho một số suy nghĩ: Khi nào (nếu có) là một cách tiếp cận thường xuyên tốt hơn đáng kể so với Bayes? Phân tích Bayesian làm cho toàn toàn hợp lý nếu một người có priors nhiều thông tin tốt, và tất cả mọi người sẽ chỉ hạnh phúc để tính toán và báo cáo hoặc thay vì củap ( H 0 : θ = 0 | dữ liệu ) p ( dữ liệu ít nhất là cực | H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)Than ôi, mọi người thường không có linh mục tốt. Một thí nghiệm ghi lại 20 con chuột làm điều gì đó trong một điều kiện và 20 con chuột làm điều tương tự trong điều kiện khác; dự đoán là hiệu suất của những con chuột trước sẽ vượt quá hiệu suất của những con chuột sau, nhưng không ai có thể sẵn sàng hoặc thực sự có thể nói rõ trước sự khác biệt về hiệu suất. (Nhưng hãy xem câu trả lời của @ FrankHarrell nơi anh ấy chủ trương sử dụng "các linh mục hoài nghi".)

    • Die-hard Bayesian đề nghị sử dụng các phương pháp Bayes ngay cả khi người ta không có bất kỳ linh mục thông tin nào. Một ví dụ gần đây là Krushke, 2012, ước tính Bayes thay thế cho -testt , viết tắt khiêm tốn là TỐT NHẤT. Ý tưởng là sử dụng một mô hình Bayes với các linh mục không thông minh yếu để tính toán hậu quả cho hiệu quả của sự quan tâm (ví dụ, ví dụ, sự khác biệt nhóm). Sự khác biệt thực tế với lý luận thường xuyên dường như thường là nhỏ, và theo như tôi có thể thấy phương pháp này vẫn không phổ biến. Xem "trước đây không thông tin" là gì? Chúng ta có thể có một cái mà thực sự không có thông tin không? cho các cuộc thảo luận về những gì là "không thông tin" (câu trả lời: không có điều đó, do đó tranh cãi).

    • Một cách tiếp cận khác, quay trở lại với Harold Jeffreys, dựa trên thử nghiệm Bayes (trái ngược với ước tính của Bayes ) và sử dụng các yếu tố Bayes. Một trong những người đề xướng hùng hồn và sung mãn hơn là Eric-Jan Wagenmakers, người đã xuất bản rất nhiều về chủ đề này trong những năm gần đây. Hai tính năng của phương pháp này đáng được nhấn mạnh ở đây. Đầu tiên, xem Wetzels và cộng sự, 2012, Thử nghiệm giả thuyết Bayes mặc định cho các thiết kế ANOVA để minh họa cho kết quả của thử nghiệm Bayes như thế nào có thể phụ thuộc vào sự lựa chọn cụ thể của giả thuyết thay thế pH1và phân phối tham số ("trước") nó đặt ra. Thứ hai, một khi ưu tiên "hợp lý" được chọn (Wagenmakers quảng cáo các linh mục "mặc định" của Jeffreys), kết quả là các yếu tố Bayes thường khá phù hợp với giá trị tiêu chuẩn , xem ví dụ như hình này từ bản in này của Marsman & Thợ làm sữa :p

      Yếu tố Bayes so với giá trị p

      Vì vậy, trong khi Wagenmakers et al. cứ khăng khăng rằng giá trị là thiếu sót sâu sắc và các yếu tố Bayes là hướng đi, người ta không thể tự hỏi ... (Công bằng mà nói, quan điểm của Wetzels et al. 2011 là chỉ với giá trị gần Bayes chỉ ra bằng chứng rất yếu chống lại null, nhưng lưu ý rằng điều này có thể dễ dàng xử lý trong mô hình thường xuyên chỉ bằng cách sử dụng một nghiêm ngặt hơn , một cái gì đó mà nhiều người đang ủng hộ.) p 0,05 app0.05α

      Một trong những bài báo phổ biến hơn của Wagenmakers et al. để bảo vệ các yếu tố của Bayes là năm 2011, tại sao các nhà tâm lý học phải thay đổi cách họ phân tích dữ liệu của họ: Trường hợp của psi nơi ông cho rằng bài báo của Bem khét tiếng về dự đoán tương lai sẽ không đưa ra kết luận sai lầm của họ nếu chỉ sử dụng các yếu tố Bayes thay thế giá trị . Xem bài đăng trên blog chu đáo này của Ulrich Schimmack để biết một lập luận phản biện chi tiết (và thuyết phục IMHO): Tại sao các nhà tâm lý học không nên thay đổi cách họ phân tích dữ liệu của họ: Ác quỷ được mặc định trước .p

      Xem thêm Bài kiểm tra Bayes mặc định được định kiến ​​chống lại bài đăng trên blog Hiệu ứng nhỏ của Uri Simonsohn.

    • Để hoàn chỉnh, tôi đề cập rằng Wagenmakers 2007, Một giải pháp thực tế cho các vấn đề phổ biến của -valuesp đề nghị sử dụng BIC là một xấp xỉ đến yếu tố Bayes để thay thế -values. BIC không phụ thuộc vào trước và do đó, mặc dù tên của nó, không thực sự là Bayes; Tôi không chắc phải nghĩ gì về đề xuất này. Dường như các nhà sản xuất Wagen gần đây ủng hộ các thử nghiệm Bayes hơn với các linh mục của Jeffreys không thông tin, xem ở trên.p


    Để thảo luận thêm về ước tính Bayes so với thử nghiệm Bayes, hãy xem ước lượng tham số Bayes hoặc thử nghiệm giả thuyết Bayes? và liên kết trong đó.

  3. Các yếu tố Bayes tối thiểu

    Trong số những người tranh chấp ASA, điều này được đề xuất rõ ràng bởi Benjamin & Berger và Valen Johnson (hai bài báo duy nhất đề xuất một phương án cụ thể). Đề xuất cụ thể của họ là một chút khác nhau nhưng họ là tương tự về tinh thần.

    • Ý tưởng của Berger quay trở lại Berger & Sellke 1987 và có một số bài viết của Berger, Sellke và cộng tác viên cho đến năm ngoái xây dựng công trình này. Ý tưởng là dưới một mũi nhọn và phiến trước khi giả thuyết điểm null có xác suất và tất cả các giá trị khác của có xác suất trải đều đối xứng quanh ("thay thế cục bộ"), sau đó là sau tối thiểu trên tất cả các lựa chọn thay thế cục bộ, tức là yếu tố Bayes tối thiểu , cao hơn nhiều so với giá trị . Đây là cơ sở của tuyên bố (nhiều tranh cãi) rằngμ=00.5μ0.50p(H0)pp -values ​​"phóng đại bằng chứng" chống lại null. Gợi ý là sử dụng giới hạn dưới của yếu tố Bayes có lợi cho null thay vì giá trị ; theo một số giả định rộng rãi, giới hạn dưới này hóa ra được đưa ra bởi , nghĩa là giá trị được nhân một cách hiệu quả bởi là hệ số khoảng đến cho phổ biến phạm vi giá trị . Cách tiếp cận này đã được xác nhận bởi Steven Goodman.peplog(p)pelog(p)1020p

      Cập nhật sau: Xem một phim hoạt hình hay giải thích những ý tưởng này một cách đơn giản.

      Thậm chí cập nhật sau: Xem Held & Ott, 2018, Trên -Values ​​and Bayes Factorsp để đánh giá toàn diện và phân tích sâu hơn về chuyển đổi giá trị thành các yếu tố Bayes tối thiểu. Đây là một bảng từ đó:p

      Các yếu tố của Mininum Bayes

    • Valen Johnson đã đề xuất một cái gì đó tương tự trong bài báo PNAS 2013 của mình ; đề xuất của anh ta xấp xỉ sôi lên để nhân giá trị với , khoảng đến .p4πlog(p)510


    Đối với một bài phê bình ngắn gọn về bài báo của Johnson, hãy xem câu trả lời của Andrew Gelman và @ Xi'an trong PNAS. Đối với đối số với Berger & Sellke 1987, xem Casella & Berger 1987 (Berger khác nhau!). Trong số các tài liệu thảo luận về APA, Stephen Senn lập luận rõ ràng chống lại bất kỳ phương pháp nào sau đây:

    Xác suất lỗi không phải là xác suất sau. Chắc chắn, có nhiều phân tích thống kê hơn -values ​​nhưng chúng nên được để lại một mình thay vì bị biến dạng theo một cách nào đó để trở thành xác suất sau của Bayesian hạng hai.P

    Xem thêm các tài liệu tham khảo trong bài viết của Senn, bao gồm cả những tài liệu cho blog của Mayo.

  4. Tuyên bố ASA liệt kê "mô hình lý thuyết quyết định và tỷ lệ phát hiện sai" là một phương án khác. Tôi không biết họ đang nói về cái gì, và tôi rất vui khi thấy điều này được nêu trong tài liệu thảo luận của Stark:

    Phần "các cách tiếp cận khác" bỏ qua thực tế là các giả định của một số phương pháp đó giống hệt với các giá trị . Thật vậy, một số phương pháp sử dụng giá trị làm đầu vào (ví dụ: Tỷ lệ khám phá sai).pp


Tôi rất hoài nghi rằng có bất cứ điều gì có thể thay thế giá trị trong thực tiễn khoa học thực tế sao cho các vấn đề thường liên quan đến giá trị (khủng hoảng sao chép, hacking, v.v.) sẽ biến mất. Bất kỳ thủ tục quyết định cố định, ví dụ như một Bayesian, có lẽ có thể được "hack" trong cùng một cách như -values có thể -hacked (đối với một số thảo luận và trình diễn này thấy 2014 bài viết trên blog này bởi Uri Simonsohn ).ppppp

Để trích dẫn từ bài thảo luận của Andrew Gelman:

Tóm lại, tôi đồng ý với hầu hết các tuyên bố của ASA về giá trị nhưng tôi cảm thấy rằng các vấn đề sâu sắc hơn và giải pháp không phải là cải cách giá trị hoặc thay thế chúng bằng một số tóm tắt hoặc ngưỡng thống kê khác, mà là tiến tới một sự chấp nhận lớn hơn về sự không chắc chắn và chấp nhận sự thay đổi.pp

Và từ Stephen Senn:

Nói tóm lại, vấn đề ít hơn với -values ​​mỗi se mà là tạo ra một thần tượng của họ. Thay thế một vị thần sai lầm khác sẽ không giúp đỡ.P

Và đây là cách Cohen đưa nó vào bài báo nổi tiếng và được trích dẫn nhiều (trích dẫn 3,5k) năm 1994 của ông Trái đất tròn ( )p<0.05 , nơi ông lập luận rất mạnh mẽ chống lại giá trị :p

[...] Đừng tìm kiếm một phép thuật thay thế cho NHST, một số nghi thức cơ học khách quan khác để thay thế nó. Nó không tồn tại.


1
@amoeba cảm ơn, đây là một bản tóm tắt tuyệt vời! Tôi đồng ý với sự hoài nghi của bạn - chủ đề này phát sinh một phần vì tôi chia sẻ nó. Tại thời điểm này, tôi để chủ đề mở - không có câu trả lời được chấp nhận - vì có thể ai đó sẽ có thể cung cấp các ví dụ và lập luận thuyết phục rằng một số thay thế thực sự, tốt tồn tại.
Tim

1
@amoeba liên quan đến Wagenmakers và BIC, thật tốt khi so sánh nó với phê bình, ví dụ như bởi Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah
Tim

2
Đây là một câu trả lời thực sự ấn tượng, xứng đáng nằm trong số những câu trả lời được bình chọn hàng đầu trên CV. Tôi có thể thêm một tiền thưởng khác sau khi Tim.
gung

Cảm ơn, @gung, tôi rất vui khi biết điều đó, nó có nghĩa là rất nhiều đến từ bạn. Mặc dù vậy, tôi nên nói rằng tôi chỉ quen thuộc với thử nghiệm Bayes và không có kinh nghiệm thực hành với nó. Vì vậy, câu trả lời này cung cấp một bản tóm tắt về những gì tôi đã đọc, nhưng nó không thực sự là một ý kiến ​​chuyên gia.
amip

1
Không, bạn không cần một thông tin trước để Bayes hoạt động tốt. Như Spiegelhalter đã thể hiện rất tốt, các linh mục hoài nghi có vai trò chính và rất dễ sử dụng. Xác suất sau Bayes có lợi thế lớn.
Frank Harrell

27

Đây là hai xu của tôi.

Tôi nghĩ rằng tại một số điểm, nhiều nhà khoa học ứng dụng đã nêu "định lý" sau:

Định lý 1: p-value<0.05my hypothesis is true.

và hầu hết các thực hành xấu đến từ đây.

Giá trị và giá trị khoa họcp

Tôi đã từng làm việc với những người sử dụng số liệu thống kê mà không thực sự hiểu về nó và đây là một số nội dung tôi thấy:

  1. chạy nhiều thử nghiệm / lặp lại có thể có (không cần nhìn một lần vào phân phối dữ liệu) cho đến khi tìm thấy "tốt": một cho ;p<0.05

  2. thử các quá trình tiền xử lý khác nhau (ví dụ trong hình ảnh y tế) để lấy dữ liệu để phân tích cho đến khi nhận được kết quả ;p<0.05

  3. đạt bằng cách áp dụng thử nghiệm t một đầu theo hướng tích cực cho dữ liệu có hiệu ứng dương và theo hướng tiêu cực cho dữ liệu có hiệu ứng âm (!!).0.05

Tất cả những điều đó được thực hiện bởi các nhà khoa học thông thạo, trung thực, không có cảm giác gian lận mạnh mẽ. Tại sao ? IMHO, vì Định lý 1.

Tại một thời điểm nhất định, nhà khoa học ứng dụng có thể tin tưởng mạnh mẽ vào giả thuyết của họ. Tôi thậm chí nghi ngờ rằng họ tin rằng họ biết họ là thật và thực tế là trong nhiều tình huống họ đã thấy dữ liệu từ nhiều năm, đã nghĩ về họ trong khi làm việc, đi bộ, ngủ ... và họ là người tốt nhất để nói điều gì đó về câu trả lời cho câu hỏi này Thực tế là, trong suy nghĩ của họ (xin lỗi tôi nghĩ rằng tôi trông hơi kiêu ngạo ở đây), bởi Định lý 1 nếu giả thuyết của họ là đúng, giá trị phải thấp hơn ; bất kể lượng dữ liệu là bao nhiêu, chúng được phân phối như thế nào, giả thuyết thay thế, hiệu ứng kích thước, chất lượng của việc thu thập dữ liệu. Nếu giá trị khôngp0.05p<0.05và giả thuyết là đúng, thì có gì đó không đúng: tiền xử lý, lựa chọn thử nghiệm, phân phối, giao thức mua lại ... vì vậy chúng tôi thay đổi chúng ... -value chỉ là chìa khóa cuối cùng của cảm ứng khoa học.p<0.05

Đến thời điểm này, tôi đồng ý với hai câu trả lời trước đó rằng khoảng tin cậy hoặc khoảng tin cậy làm cho câu trả lời thống kê phù hợp hơn với cuộc thảo luận và diễn giải. Mặc dù -value khó diễn giải (IMHO) và kết thúc cuộc thảo luận, các ước tính khoảng có thể phục vụ một cảm ứng khoa học được minh họa bằng các số liệu thống kê khách quan nhưng được dẫn dắt bởi các lập luận chuyên gia.p

Giá trị và giả thuyết thay thếp

Một hậu quả khác của Th.1 là nếu -value thì giả thuyết thay thế là sai. Một lần nữa, đây là điều mà tôi gặp phải nhiều lần:p>0.05

  1. thử so sánh (chỉ vì chúng tôi có dữ liệu) một giả thuyết về loại : lấy ngẫu nhiên 10 điểm dữ liệu cho mỗi trong hai nhóm, tính giá trị cho . Tìm , chú ý ở một số phần của bộ não rằng không có sự khác biệt giữa hai nhóm.H0:μ1μ2pH0p=0.2

Một vấn đề chính với giá trị là sự thay thế không bao giờ được đề cập trong khi tôi nghĩ trong nhiều trường hợp điều này có thể giúp ích rất nhiều. Một ví dụ điển hình là điểm 4., trong đó tôi đã đề xuất với đồng nghiệp của mình để tính tỷ lệ sau cho so với và nhận được một cái gì đó như 3 (Tôi biết điều này con số thấp đến mức nực cười). Nhà nghiên cứu hỏi tôi có nghĩa là xác suất mạnh gấp 3 lần so vớipp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1. Tôi trả lời rằng đây là một cách để giải thích nó và cô ấy thấy điều này thật tuyệt vời và cô ấy nên xem nhiều dữ liệu hơn và viết một bài báo ... Quan điểm của tôi không phải là "3" này giúp cô ấy hiểu rằng có gì đó trong dữ liệu (một lần nữa 3 rõ ràng là vô cảm) nhưng nó nhấn mạnh rằng cô ấy hiểu sai giá trị p là "p-value> 0,05 có nghĩa là không có gì thú vị / nhóm tương đương". Vì vậy, theo tôi, luôn luôn ít nhất là thảo luận về giả thuyết thay thế (es!) Là bắt buộc, cho phép tránh đơn giản hóa, đưa ra yếu tố để tranh luận.

Một trường hợp liên quan khác là khi các chuyên gia muốn:

  1. kiểm tra . Vì họ đã kiểm tra và từ chối sau đó kết luận bằng cách sử dụng thực tế rằng các ước tính ML được đặt hàng.μ 1 = μ 2 = μ 3 μ 1 > μ 2 > μ 3μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

Đề cập đến giả thuyết thay thế là giải pháp duy nhất để giải quyết trường hợp này.

Vì vậy, sử dụng tỷ lệ cược sau, yếu tố Bayes hoặc tỷ lệ khả năng kết hợp với khoảng tin cậy / khoảng tin cậy dường như làm giảm các vấn đề chính liên quan.

Việc giải thích sai các khoảng -value / độ tin cậy phổ biến là một lỗ hổng tương đối nhỏ (trong thực tế)p

Mặc dù tôi là một người đam mê Bayes, tôi thực sự nghĩ rằng việc giải thích sai về -value và CI (nghĩa là giá trị không phải là xác suất mà giả thuyết null là sai và CI không phải là khoảng chứa giá trị tham số với 95 % cơ hội) không phải là mối quan tâm chính cho câu hỏi này (trong khi tôi chắc chắn đây là một điểm chính theo quan điểm triết học). Quan điểm Bayes / Thường xuyên có cả hai câu trả lời thích hợp để giúp học viên trong "cuộc khủng hoảng" này. ppp

Kết luận hai xu của tôi

Sử dụng khoảng tin cậy và yếu tố Bayes hoặc tỷ lệ cược sau là những gì tôi cố gắng thực hiện trong thực tiễn với các chuyên gia (nhưng cũng là người đam mê tỷ lệ khả năng CI +). Tôi đã đi đến thống kê một vài năm trước, chủ yếu bằng cách tự học từ trang web (rất nhiều nhờ có Xác thực chéo!) Và lớn lên với vô số sự kích động xung quanh giá trị . Tôi không biết liệu thực hành của tôi có tốt không nhưng đó là điều tôi thực tế thấy là một sự thỏa hiệp tốt giữa hiệu quả và làm cho công việc của tôi trở nên đúng đắn.p


Có lẽ bạn có thể chỉnh sửa ví dụ của mình để rõ ràng hơn vì hiện tại bạn đang tính toán gì, dữ liệu là gì và các con số đến từ đâu?
Tim

@Tim. Tks cho feedbak. Ví dụ nào bạn đang giới thiệu?
peuhp

"hãy thử so sánh (chỉ vì chúng tôi có dữ liệu) một giả thuyết: lấy 10 và 10 dữ liệu, tính giá trị p. Tìm p = 0,2 ...."
Tim

1
Tôi cũng không nghĩ rằng "biết" giả thuyết của bạn là đúng ngay cả khi dữ liệu dường như đề xuất khác đi thực sự là một điều xấu. Đây rõ ràng là cách mà Gregor Mendel cảm nhận được khi có điều gì đó không ổn với các thí nghiệm của anh ta, bởi vì anh ta có một trực giác mạnh mẽ đến mức các lý thuyết của anh ta là chính xác.
DSaxton

@dsaxton Hoàn toàn đồng ý với bạn. Có thể nó không rõ ràng lắm nhưng đây là một điều tôi cố gắng minh họa ở điểm thứ nhất của mình: giá trị p không phải là chìa khóa cuối cùng của cảm ứng khoa học (trong khi nó dường như dành cho một đối tượng nhất định). Đây là một phép đo thống kê về chứng cứ thông qua một lượng dữ liệu nhất định, trên các điều kiện nhất định. Và trong trường hợp bạn có quá nhiều lý do bên ngoài để nghĩ rằng giả thuyết đó là đúng nhưng khi dữ liệu cung cấp giá trị p "tốt", những điều khác có thể được thảo luận khi bạn đề cập một cách phù hợp. Tôi sẽ cố gắng làm cho nó rõ ràng hơn trong anwser của tôi.
peuhp

24

P

  1. Nhiều phần mềm có sẵn cho các phương pháp thường xuyên hơn các phương pháp Bayes.
  2. Hiện tại, một số phân tích Bayes mất nhiều thời gian để chạy.
  3. Phương pháp Bayes đòi hỏi tư duy nhiều hơn và đầu tư nhiều thời gian hơn. Tôi không bận tâm đến phần suy nghĩ nhưng thời gian thường ngắn nên chúng tôi dùng phím tắt.
  4. Bootstrap là một kỹ thuật hàng ngày rất linh hoạt và hữu ích, được kết nối nhiều hơn với thế giới thường xuyên hơn là Bayesian.

PP khiến người ta phải thực hiện các điều chỉnh bội số tùy ý, thậm chí điều chỉnh cho các giao diện dữ liệu có thể đã gây ảnh hưởng nhưng thực tế thì không.

P

Ngoại trừ các mô hình tuyến tính Gaussian và phân phối theo cấp số nhân, hầu hết mọi thứ chúng ta làm với suy luận thường xuyên là gần đúng (một ví dụ điển hình là mô hình logistic nhị phân gây ra vấn đề vì hàm khả năng đăng nhập của nó rất không bậc hai). Với suy luận Bayes, mọi thứ đều chính xác trong lỗi mô phỏng (và bạn luôn có thể thực hiện nhiều mô phỏng hơn để có xác suất sau / khoảng đáng tin cậy).

Tôi đã viết một kế toán chi tiết hơn về suy nghĩ và sự phát triển của tôi tại http://www.fharrell.com/2017/02/my-jTHER-from-frequentist-to-bayesian.html


3
p

2
p

3
t

1
Frank, cảm ơn. Tôi không rành lắm về thử nghiệm Bayes (và chưa từng nghe về Box & Tiao trước đây), nhưng ấn tượng chung của tôi là yếu tố Bayes mà một người thoát khỏi thử nghiệm Bayes có thể phụ thuộc khá nhiều vào sự lựa chọn cụ thể của một điều không xác định trước đó đi vào. Và những lựa chọn này có thể khó để thúc đẩy. Tôi đoán điều tương tự cũng xảy ra đối với các khoảng đáng tin cậy - chúng sẽ phụ thuộc mạnh mẽ vào sự lựa chọn của một thông tin không chính xác trước đó. Có phải vậy không? Nếu có thì nên xử lý thế nào?
amip

2
Có mặc dù tôi không sử dụng các yếu tố Bayes. Cách tiếp cận thường xuyên chọn một trước cũng vậy - một cách bỏ qua tất cả các kiến ​​thức khác về chủ đề này. Tôi thích cách tiếp cận đầy hoài nghi của Spiegelhalter. Trong một thế giới lý tưởng, bạn sẽ để những người hoài nghi của bạn cung cấp trước.
Frank Harrell

6

Một nhà dự báo tài ba Scott Armstrong từ Wharton đã xuất bản một bài báo cách đây gần 10 năm có tiêu đề Ý nghĩa kiểm tra tiến trình gây hại trong dự báo trên tạp chí quốc tế về dự báo một tạp chí mà ông đồng sáng lập. Mặc dù điều này là trong dự báo, nó có thể được khái quát cho bất kỳ phân tích dữ liệu hoặc ra quyết định. Trong bài báo, ông nói rằng:

"các thử nghiệm có ý nghĩa thống kê gây hại cho tiến bộ khoa học. Nỗ lực tìm ra ngoại lệ cho kết luận này, cho đến nay, không có kết quả nào."

Đây là một bài đọc tuyệt vời cho bất kỳ ai quan tâm đến quan điểm đối nghịch về kiểm tra ý nghĩa và giá trị P.

Lý do tại sao tôi thích bài viết này là vì Armstrong cung cấp các lựa chọn thay thế cho việc kiểm tra ý nghĩa ngắn gọn và có thể dễ dàng hiểu được đặc biệt đối với một người không thống kê như tôi. Điều này theo tôi là tốt hơn nhiều so với bài báo ASA được trích dẫn trong câu hỏi:nhập mô tả hình ảnh ở đây

Tất cả trong số đó tôi tiếp tục nắm lấy và từ đó đã ngừng sử dụng thử nghiệm có ý nghĩa hoặc xem xét các giá trị P trừ khi tôi thực hiện các nghiên cứu thử nghiệm ngẫu nhiên hoặc thử nghiệm gần đúng. Tôi phải thêm các thí nghiệm ngẫu nhiên là rất hiếm trong thực tế ngoại trừ trong ngành dược phẩm / khoa học đời sống và trong một số lĩnh vực trong Kỹ thuật.


4
Ý bạn là gì "thí nghiệm ngẫu nhiên rất hiếm trong thực tế ngoại trừ trong ngành dược phẩm và trong một số lĩnh vực Kỹ thuật"? Các thí nghiệm ngẫu nhiên có ở khắp mọi nơi trong sinh học và tâm lý học.
amip

Tôi chỉnh sửa nó để bao gồm khoa học đời sống.
dự báo

2
Được rồi, nhưng nói rằng rand. điểm kinh nghiệm là "rất hiếm" ngoại trừ trong y học và khoa học đời sống và tâm lý học về cơ bản nói rằng chúng "rất phổ biến". Vì vậy, tôi không chắc chắn về quan điểm của bạn.
amip

6

p

p. Tôi vẫn nghĩ rằng đây là một cách tiếp cận đầy đủ, để lại câu hỏi về khả năng ứng dụng khoa học của những phát hiện trong tay các chuyên gia nội dung đó. Bây giờ, lỗi chúng ta tìm thấy trong các ứng dụng hiện đại không phải là lỗi của thống kê. Ngoài ra tại chơi là câu cá, ngoại suy, và cường điệu. Thật vậy, nếu (nói) một bác sĩ tim mạch nên nói dối và tuyên bố rằng một loại thuốc làm giảm huyết áp trung bình 0,1mmHg là "có ý nghĩa lâm sàng" thì sẽ không có thống kê nào bảo vệ chúng ta khỏi sự không trung thực đó.

Chúng ta cần một kết thúc để quyết định suy luận thống kê lý thuyết. Chúng ta nên nỗ lực để nghĩ xa hơn giả thuyết. Khoảng cách ngày càng tăng giữa tiện ích lâm sàng và giả thuyết điều tra thúc đẩy thỏa hiệp tính toàn vẹn khoa học. Nghiên cứu "có ý nghĩa" cực kỳ gợi ý nhưng hiếm khi hứa hẹn bất kỳ kết quả có ý nghĩa lâm sàng nào.

Điều này là hiển nhiên nếu chúng ta kiểm tra các thuộc tính của giả thuyết điều khiển suy luận:

  • Giả thuyết khống được nêu là bị tước đoạt, không đồng ý với kiến ​​thức hiện tại và bất chấp lý do hoặc kỳ vọng.
  • Các giả thuyết có thể tiếp tuyến đến điểm mà tác giả đang cố gắng mak. Thống kê hiếm khi phù hợp với phần lớn các cuộc thảo luận tiếp theo trong các bài báo, với các tác giả đưa ra tuyên bố sâu rộng rằng, ví dụ, nghiên cứu quan sát của họ có ý nghĩa đối với chính sách công và tiếp cận.
  • Các giả thuyết có xu hướng không đầy đủ theo nghĩa là chúng không xác định đầy đủ dân số quan tâm, và có xu hướng dẫn đến quá mức tăng trưởng

Đối với tôi, sự thay thế có một cách tiếp cận siêu phân tích, ít nhất là một phương pháp định tính. Tất cả các kết quả phải được kiểm duyệt nghiêm ngặt đối với các kết quả và sự khác biệt "tương tự" khác được mô tả rất cẩn thận, đặc biệt là các tiêu chí bao gồm / loại trừ, đơn vị hoặc thang đo được sử dụng cho phơi nhiễm / kết quả, cũng như kích thước hiệu ứng và khoảng không chắc chắn (được tóm tắt tốt nhất với 95% TCTD ).

Chúng ta cũng cần tiến hành các thử nghiệm xác nhận độc lập. Nhiều người bị ảnh hưởng bởi một thử nghiệm có vẻ quan trọng, nhưng không có sự nhân rộng, chúng tôi không thể tin rằng nghiên cứu đã được thực hiện về mặt đạo đức. Nhiều người đã làm cho sự nghiệp khoa học ra khỏi sự giả mạo bằng chứng.


"Đề xuất ban đầu của Fisher là các nhà khoa học nên so sánh một cách định tính giá trị p với sức mạnh của nghiên cứu và đưa ra kết luận ở đó." Tôi thích điểm này --- bạn có tài liệu tham khảo nào tôi có thể trích dẫn khi Fisher nói điều này không? Sẽ là một bước tiến lớn nếu các nhà khoa học chuyển từ phân đôi đơn giản p <0,05 sang phân đôi đơn giản chỉ hơi ít đơn giản: "Nếu p <0,05 VÀ công suất cao, chúng tôi có bằng chứng mạnh mẽ hợp lý. Nếu p> 0,05 HOẶC sức mạnh thấp, chúng tôi sẽ giữ lại phán quyết về giả thuyết này cho đến khi chúng tôi nhận được nhiều dữ liệu hơn. "
Civilstat

6

ppp

Hai tài liệu tham khảo từ tài liệu y khoa là (1) của Langman, MJS có tiêu đề Hướng tới ước lượng và khoảng tin cậy và Gardner MJ và Altman, DG có tiêu đề Khoảng tin cậy thay vì giá trị {P}: ước tính thay vì kiểm tra giả thuyết


2
Trên thực tế, CI của ta không hiển thị kích thước hiệu quả và chính xác, kiểm tra ví dụ Morey et al (2015) "Các sai lầm của việc đặt niềm tin vào khoảng tin cậy" Psychonomic Bulletin và nhận xét: learnbayes.org/papers/confidenceIntervalsFallacy
Tim

8
@Tim, giấy đẹp, tôi chưa thấy nó trước đây; Tôi thích ví dụ tàu ngầm. Cảm ơn các liên kết. Nhưng người ta nên nói rằng nó được viết bởi những người theo đảng phái Bayes thực thụ: "Khoảng thời gian không phải Bayes có những tính chất không mong muốn, thậm chí kỳ quái, sẽ khiến bất kỳ nhà phân tích hợp lý nào từ chối chúng như một phương tiện để rút ra những suy luận". Bất kỳ nhà phân tích hợp lý! Kiêu ngạo ấn tượng.
amip

1
@amoeba đồng ý, tôi chỉ cung cấp ví dụ ngược lại, vì đối với tôi, không có gì rõ ràng rằng các lựa chọn thay thế rõ ràng và trực tiếp như có thể xuất hiện từ cái nhìn đầu tiên.
Tim

4
Trong khi thú vị, tôi đã không tìm thấy ví dụ tàu ngầm hấp dẫn. Không có nhà thống kê suy nghĩ sẽ lý do cách trong một ví dụ. Bạn không ngừng suy nghĩ và áp dụng một phương pháp một cách mù quáng vào mọi tình huống chỉ vì nó hữu ích trong những tình huống khác.
DSaxton

2
@amoeba: Trong trích dẫn cụ thể đó, "Các khoảng phi Bayes" đề cập cụ thể đến các khoảng được thảo luận trong ví dụ đó, không phải tất cả các khoảng được chứng minh bằng logic phi Bayes. Xem tại đây để biết thêm ngữ cảnh: stats.stackexchange.com/questions/204530/NH
richarddmorey

1

Lựa chọn của tôi sẽ là tiếp tục sử dụng các giá trị p, nhưng chỉ cần thêm các khoảng tin cậy / đáng tin cậy và có thể cho các khoảng dự đoán kết quả chính. Có một cuốn sách rất hay của Douglas Altman (Statistics with Confidence, Wiley), và nhờ các phương pháp boostrap và MCMC, bạn luôn có thể xây dựng các khoảng thời gian hợp lý mạnh mẽ.


6
Tôi nghĩ rằng bạn không thực sự trả lời câu hỏi chính đó là "tại sao họ tốt hơn?" / "Tại sao phương pháp này nên thuyết phục nhà nghiên cứu, biên tập viên hoặc độc giả chính của bạn?". Bạn có thể phát triển sự lựa chọn của bạn?
peuhp

1. Điều đó chỉ cho phép thực hành hiện tại. 2. Dù sao cũng có xu hướng thực hiện "thử nghiệm ý nghĩa cửa sau" với CI, 3. Thử nghiệm ý nghĩa (với giá trị p hoặc CIs) dẫn đến tỷ lệ tái sản xuất thấp (xem bài viết của Tim Lash). 4. Các nhà nghiên cứu không thể bận tâm để xác định trước một ranh giới hoặc ngưỡng hiệu quả có ý nghĩa lâm sàng.
AdamO

1

p

  • phát triển một mô hình tinh vi hơn có khả năng mô phỏng kết quả trong dân số mục tiêu
  • xác định và đo lường các thuộc tính của dân số mục tiêu trong đó quyết định, điều trị hoặc chính sách được đề xuất có thể được thực hiện
  • ước tính bằng cách mô phỏng tổn thất dự kiến ​​theo đơn vị thô của số lượng mục tiêu như năm sống, năm điều chỉnh chất lượng, đô la, sản lượng cây trồng, v.v. và để đánh giá độ không đảm bảo của ước tính đó.

Bằng mọi cách, điều này không loại trừ thử nghiệm ý nghĩa giả thuyết bình thường, nhưng nó nhấn mạnh rằng những phát hiện có ý nghĩa thống kê là rất sớm, bước trung gian trên con đường đến khám phá thực sự và chúng ta nên hy vọng các nhà nghiên cứu sẽ làm được nhiều hơn với những phát hiện của họ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.