Có tầm nhìn cố định các giá trị p


31

Đôi khi trong các báo cáo tôi bao gồm từ chối trách nhiệm về các giá trị p và các thống kê suy luận khác mà tôi đã cung cấp. Tôi nói rằng vì mẫu không ngẫu nhiên, nên những thống kê như vậy sẽ không được áp dụng nghiêm ngặt. Từ ngữ cụ thể của tôi thường được đưa ra trong một chú thích:

"Mặc dù, nói một cách nghiêm túc, thống kê suy luận chỉ có thể áp dụng trong bối cảnh lấy mẫu ngẫu nhiên, chúng tôi tuân theo quy ước về báo cáo mức độ quan trọng và / hoặc khoảng tin cậy như những thước đo thuận tiện ngay cả đối với các mẫu không có giá trị. Xem phần suy luận thống kê của Michael Oakes : khoa học hành vi (NY: Wiley, 1986).

Trong một vài lần - một lần cho một bài báo đánh giá ngang hàng, một hoặc hai lần trong một môi trường phi học thuật - biên tập viên hoặc nhà phê bình đã phản đối từ chối trách nhiệm này, gọi nó là khó hiểu và cảm thấy rằng những phát hiện suy diễn chỉ đơn giản là viết (và được trao quyền lực). Có ai khác gặp phải vấn đề này và tìm thấy một giải pháp tốt? Một mặt, sự hiểu biết của mọi người về giá trị p nói chung là ảm đạm, ngay cả trong bối cảnh lấy mẫu ngẫu nhiên, vì vậy có lẽ nó không quan trọng lắm với những gì chúng ta nói. Mặt khác, để đóng góp thêm cho những hiểu lầm dường như làm cho một phần của vấn đề. Tôi nên nói thêm rằng tôi thường xuyên đối phó với các nghiên cứu khảo sát, trong đó việc gán ngẫu nhiên không được áp dụng và nơi mô phỏng Monte Carlo thường không giải quyết được vấn đề về tính đại diện.


3
Nhận xét về một nhà phê bình là vô cùng đáng buồn, người ta sẽ hy vọng rằng một người ở vị trí đó ít nhất sẽ không công khai thể hiện sự thiếu hiểu biết của họ, và bằng cách đó, hỗ trợ thêm cho việc giải thích sai phương pháp thống kê.
richiemorrisroe

8
Chỉnh sửa cho tôi nếu tôi sai, nhưng tính ngẫu nhiên của việc lấy mẫu chỉ ảnh hưởng đến mức độ bạn có thể khái quát hóa các phát hiện. Ngược lại, gán ngẫu nhiên là tính năng quan trọng hơn cho suy luận nguyên nhân.
Mike Lawrence

3
Mike, tôi đồng ý với bạn. Bạn có đưa ra quan điểm này để mở rộng cuộc thảo luận hoặc để thể hiện sự không đồng ý với điều gì đó tôi đã nói không?
rolando2

@richiemorrisroe: người ta sẽ thật ngu ngốc khi kỳ vọng vào tất cả những người đánh giá, nhưng tôi cho rằng người ta có thể hy vọng vào một tương lai mà chúng ta có thể mong đợi, và chúng ta chắc chắn nên gây áp lực để các nhà xuất bản làm nhiều hơn để yêu cầu và thực thi điều đó hơn là hiện tại .. .Rolando, tôi nghĩ Mike chỉ đơn thuần là một điểm cần làm rõ để phân biệt cuộc thảo luận này khỏi các vấn đề liên quan đến suy luận nguyên nhân. Rõ ràng một số người đã thấy rằng hữu ích, mặc dù tôi nghĩ rằng nó đã đủ rõ ràng, cá nhân. Nếu tôi đúng, điều này vô tình đo lường sự nhầm lẫn của người khác về giá trị p , điều này thúc đẩy bài viết gốc!
Nick Stauner

Câu trả lời:


11

Thực sự có một cuộc tranh cãi không được bao gồm từ chối trách nhiệm. Thành thật mà nói, tôi thấy một chuyên luận ngắn gọn về bản chất của giá trị p trong một bài báo là hơi khó chịu, và trong một lúc, tôi sẽ phải tạm dừng và cố gắng tìm hiểu xem bạn đã làm gì đặc biệt chưa .. .esoteric ... để đảm bảo dành không gian đó cho một điểm xác định.

Về cơ bản, với tư cách là người đánh giá, tôi gọi nó là không cần thiết vì người đọc nên biết giá trị p là gì và làm gì. Tôi thậm chí có thể phản đối nó bởi vì việc ghi chú như vậy không thực sự ngăn chặn bất kỳ tội ác phân tích và giải thích nào đi kèm với các giá trị p, nó chỉ mặc một chiếc áo choàng "hãy tin tôi, tôi biết tôi đang làm gì". Điều này cũng hơi kỳ quặc - "Tôi sẽ tạo ra một lập trường táo bạo chống lại các giá trị p, nhưng không quá táo bạo tôi không báo cáo chúng".

Khi tôi xem xét "quan điểm cố thủ về giá trị p", tôi ít quan tâm đến điều gì đó giống như những gì bạn đã đăng ở trên và quan tâm nhiều hơn đến sự nhấn mạnh của người đánh giá về ý nghĩa thống kê để được xuất bản hoặc trọng tâm của bài báo (đặt một ngôi sao bởi một phát hiện và đột nhiên nó là một Thỏa thuận lớn) hoặc pha trộn ý nghĩa thống kê với ý nghĩa của một phát hiện.


3
Tôi không nghĩ điều này trả lời OP. Tôi giả sử @ rolando2 báo cáo các số liệu thống kê khác tập trung hơn vào các cuộc thảo luận của anh ấy (ví dụ: kích thước hiệu ứng) và chủ yếu báo cáo các giá trị p như một cách để đáp ứng các kỳ vọng thông thường, mặc dù chúng không áp dụng nghiêm ngặt. Như vậy, chúng ta nên đặt ra ở bất kỳ mức độ nào chúng ta đọc quá nhiều vào các giá trị p ; chúng ta nên xem xét động lực của anh ấy để từ chối trách nhiệm. Người đọc không biết những gì họ nên; OP đề cập đến điều này. Việc từ chối khuyến khích sự nghi ngờ, không tin tưởng. Nó không phải là lạ khi phản đối một tiêu chuẩn trong khi tuân thủ nó; nó không phải là một lập trường táo bạo.
Nick Stauner

@NickStauner Tôi không thấy nó không "trả lời" OP. Có lẽ nó không hỗ trợ những gì họ muốn làm, nhưng trong suy nghĩ của tôi, cả hai đều thực sự kỳ lạ với nội dung thực tế của bài báo và cũng vô dụng - "Điều này là sai, nhưng tôi sẽ tiếp tục như thể nó đúng vì đó là những gì bạn mong đợi tất cả" không cho tôi biết nếu sai quấy vấn đề .
Fomite

3
Câu hỏi của OP: "Có ai khác gặp phải vấn đề này và tìm ra giải pháp tốt không?" Câu trả lời của bạn bỏ qua câu hỏi theo nghĩa đen để trả lời cho ý tưởng, và chủ yếu đưa ra ý kiến ​​của bạn về lý do tại sao ý tưởng nên bị bắn hạ. Bạn đang bắt đầu gợi ý về một bài phê bình mang tính xây dựng về ý tưởng của OP: bạn dường như không nghĩ rằng trích dẫn Oakes cho bạn biết lý do tại sao nó quan trọng. Tôi sẽ mở rộng về điều này một chút trong câu trả lời của riêng tôi.
Nick Stauner

12

Việc sử dụng số liệu thống kê suy luận có thể được biện minh không chỉ dựa trên mô hình dân số, mà còn dựa trên mô hình ngẫu nhiên. Cái sau không đưa ra bất kỳ giả định nào về cách lấy mẫu. Trên thực tế, Fisher là người cho rằng mô hình ngẫu nhiên hóa phải là cơ sở cho suy luận thống kê (trái ngược với Neyman và Pearson). Xem, ví dụ:

Ernst, MD (2004). Phương pháp hoán vị: Một cơ sở cho suy luận chính xác. Khoa học thống kê, 19, 676-685. [liên kết (truy cập mở)]

Ludbrook, J. & Dudley, H. (1998). Tại sao xét nghiệm hoán vị lại vượt trội so với xét nghiệm t và F trong nghiên cứu y sinh. Thống kê người Mỹ, 52, 127-132. [liên kết (nếu bạn có quyền truy cập JSTOR)]

Tôi bằng cách nào đó nghi ngờ mặc dù các biên tập viên hoặc người đánh giá trong câu hỏi đã sử dụng điều này như là lý do để gọi từ chối trách nhiệm của bạn là "khó hiểu".


1
Wolfgang - điểm thú vị và hữu ích. Mặc dù vậy, tôi nên nói rõ rằng phần lớn công việc của tôi là khảo sát.
rolando2

7
Nếu mục tiêu chính là tạo ra một số loại suy luận cho dân số và cơ chế lấy mẫu có bản chất đến mức tính đại diện của mẫu là nghi vấn, thì thực sự, mọi suy luận cũng sẽ khá đáng nghi ngờ. Về cơ bản, bạn chỉ có thể suy luận về phần dân số mà cơ chế lấy mẫu cung cấp một đại diện. Về nguyên tắc, những suy luận bạn đưa ra sẽ phù hợp với phần dân số đó. Cho dù một phần của dân số là bất kỳ mối quan tâm của bạn (hoặc độc giả) là một vấn đề khác.
Wolfgang

7

Tôi chưa phải chiến đấu với bất kỳ người đánh giá xấu nào, vì vậy tôi sẽ không yêu cầu bất kỳ kiến ​​thức nào về cách thoát khỏi trận chiến đã bắt đầu. Tuy nhiên, nếu sự phản đối của họ chỉ là vấn đề của sự thiếu hiểu biết tắc nghẽn, một chút nghi binh có thể làm điều đó. Nếuptrên thực tế, các giá trị là cần thiết để báo cáo mặc dù tính vô hiệu không đáng kể của chúng trong một nghiên cứu có vấn đề (một lớp mà tất cả quá nhiều bài báo được xuất bản đều rơi), người ta có thể xem thường chúng. Hãy xem xét việc tập trung vào câu chuyện của bạn thay vì có thể thậm chí là độc quyền về các kích cỡ hiệu ứng. Nếu nghiên cứu của bạn đủ đại diện để cung cấp thông tin hữu ích (điều này không cần phải lấy mẫu hoàn toàn ngẫu nhiên, chỉ cần thận trọng về tính tổng quát của các diễn giải), kích thước hiệu ứng của bạn phải có ý nghĩa rộng hơn là chỉ cho thấy sự tồn tại và hướng của mối quan hệ hoặc sự khác biệt. Tập trung thảo luận của một người vào các kích thước hiệu ứng có thể tạo điều kiện hiểu sâu hơn về mối quan hệ hoặc sự khác biệt quan trọng như thế nào trong ý nghĩa thực tế, mặc dù điều này vẫn cần được xem xét trong bối cảnh của chủ đề nghiên cứu (ví dụ:r= =0,03nhất thiết không quan trọng nếu nó có thể liên quan đến vấn đề sống và chết; Rosenthal, Rubin, & Rosnow, 2000) . Bạn có thể làm điều này bằng cách thảo luận về kết quả về các mối quan hệ "yếu", "trung bình" hoặc "mạnh" hoặc "nhỏ" hoặc "lớn" thay vì coi chúng là "đáng kể" và "không đáng kể"; hai từ sau không cần thiết phải làm bất cứ điều gì để làm cho hầu hết các điểm mà các nhà nghiên cứu muốn thực hiện. Nếupgiá trị là cần thiết, hãy để họ nói cho chính họ. Làm các nhà phân tích meta ưu tiên và chỉ đưa họ vào các báo cáo toàn diện hơn về thống kê có giá trị: kích thước hiệu ứng, khoảng tin cậy và thống kê kiểm tra. Có thể hy vọng một ngày mà độc giả và người đánh giá sẽ bỏ quap giá trị và khoảng tin cậy cầu, sao cho pcác giá trị có thể bị bỏ hoàn toàn. (Hoặc có thể không! Xem phần hậu kỳ!)

Một lựa chọn khác, có khả năng bổ sung sẽ là mở rộng trên chú thích của bạn. Cả hai mô tả của bạn về vấn đề như những người đánh giá đã trải qua nó và câu trả lời hiện được chấp nhận trên trang này, cho thấy rằng không có đủ thông tin được truyền đạt để giải thích động lực của bạn trong việc bao gồm chú thích, cũng không đủ để thúc đẩy người đọc theo dõi trích dẫn của bạn để tham khảo mà bạn sử dụng để giải thích nó rất căng thẳng. Một câu duy nhất, bổ sung, thậm chí là một trích dẫn ngắn gọn từ tài liệu tham khảo của bạn, có thể đi một chặng đường dài để giải thích giá trị của chú thích của bạn và thúc đẩy người đọc đọc sâu hơn. Rõ ràng, chú thích của bạn sớm hơn sẽ thúc đẩy một phản ứng đơn giản, tiêu cực, bác bỏ đối với nỗ lực của bạn để phá vỡ sự tự mãn của họ về các giả định không đúng của họ. Người đọc có thể kém một chút về trí tuệ nếu bạn cho họ ăn một hoặc hai điểm chính về các vấn đề mà họ có thể bỏ qua thường xuyên. Ngoài ra, đối với nhiều vấn đề cụ thể vớipcác giá trị, xem xét trích dẫn không chỉ cuốn sách đó, mà còn là một bài báo tạp chí khá súc tích hiện có sẵn miễn phí trên mạng (ví dụ: Goodman, 2008 , Wagenmakers, 2007 ) . Điều đó có thể giúp giảm bất kỳ sự kháng cự nào do khó lấy sách và tìm thông tin liên quan bên trong.

PS Cảm ơn @rpierce cho Wagenmakers (2007) và phần lớn logic của câu trả lời của tôi, và @FranciscoArceo cho Goodman (2008) ! Xem thêm câu trả lời liên quan lỏng lẻo của Francisco , cũng như một số bài đăng phổ biến khác tại đây trên Cross xác thực về việc diễn giảip đúng giá trị:

P.P.S. @MichaelLew's counterpoint is also worth considering before tossing the p values out entirely! See Senn (2001) and Lew (2013) for some rare and valuable (but only partial) defenses of p. [Edit]: Also, I brought up this question in a new question, "Why are 0.05 < p < 0.95 results called false positives?" In discussing my answer, the OP brought up Hurlbert and Lombardi (2009), which I brought up with my colleagues, one of whom then brought up Nuzzo (2014), a brand new Nature News article that led to even more references (Goodman, 2001, 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007)...I am obviously not keeping up at this point, but Michael is just as clearly not alone in defending the possibility of extracting useful information from exact p values (when they do "strictly apply", at least).

References

- Goodman, S. N. (1992). A comment on replication, P‐values and evidence. Statistics in Medicine, 11(7), 875–879.
- Goodman, S. N. (2001). Of P-values and Bayes: A modest proposal. Epidemiology, 12(3), 295–297. Retrieved from http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf.
- Goodman, S. (2008). A dirty dozen: Twelve P-value misconceptions. Seminars in Hematology, 45(3), 135–140. Retrieved from http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf.
- Gorroochurn, P., Hodge, S. E., Heiman, G. A., Durner, M., & Greenberg, D. A. (2007). Non-replication of association studies: “pseudo-failures” to replicate? Genetics in Medicine, 9(6), 325–331. Retrieved from http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html.
- Hurlbert, S. H., & Lombardi, C. M. (2009). Final collapse of the Neyman–Pearson decision theoretic framework and rise of the neoFisherian. Annales Zoologici Fennici, 46(5), 311–349. Retrieved from http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf.
- Lew, M. J. (2013). To P or not to P: On the evidential nature of P-values and their place in scientific inference. arXiv:1311.0081 [stat.ME]. Retrieved from http://arxiv.org/abs/1311.0081.
- Nuzzo, R. (2014, February 12). Scientific method: Statistical errors. Nature News, 506(7487). Retrieved from http://www.nature.com/news/scientific-method-statistical-errors-1.14700.
- Rosenthal, R., Rosnow, R. L., & Rubin, D. B. (2000). Contrasts and effect sizes in behavioral research: A correlational approach. Cambridge University Press.
- Senn, S. (2001). Two cheers for P-values? Journal of Epidemiology and Biostatistics, 6(2), 193–204. Retrieved from http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf.
- Wagenmakers, E. J. (2007). A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779–804. Retrieved from http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf.


3
Not all of the criticisms of P-values are correct or warranted, despite their vehemence. You should see these two papers for a few counterpoints to the commentaries that you cite: Two Cheers for P Values (by Stephen Senn) phil.vt.edu/dmayo/conference_2010/…; To P or Not To P (by me) arxiv.org/abs/1311.0081
Michael Lew

1
Excellent point! Thank you! I've edited slightly to include your contributions, and I may edit a bit more once I understand them well enough to incorporate their implications into the rest of what I've said. This is why I love Cross Validated...
Nick Stauner

2
Do you have any experimental evidence in favor of your claim that Edwards' assumption extends to p-values? I find my self extremely skeptical. My way of analogy, I've seen a couple papers that demonstrate that even experienced data scientists have trouble estimating a correlation coefficient from a scatterplot. It seems like you are asking a lot more from scientists in gaining a sense of what a p value means in terms of likelihood. Your argument in favor of likelihood functions is interesting... they do tend to look a bit like posterior distributions, no?
russellpierce

2
@rpierce I don't have experimental evidence for the understanding of users of statistical methods. I would, however, contend that at least some of the studies that have been done to see if scientists 'understand' p-values are fatally flawed by not including among the options a true evidentially meaningful description of the p-value. Your analogy is not close because the fact that correlation coefficients are not easily estimated is not the same problem as estimating the strength of evidence from a p-value.
Michael Lew

1
@rpierce The posterior probability density function from a uniform prior will be proportional to the likelihood function.
Michael Lew
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.