Bài viết này " Những điều lạ lùng, được cập nhật liên tục" từ NY Times đã thu hút sự chú ý của tôi. Nói ngắn gọn, nó nói rằng
[Thống kê Bayes] đang tỏ ra đặc biệt hữu ích trong việc tiếp cận các vấn đề phức tạp, bao gồm các tìm kiếm như Cảnh sát biển đã sử dụng năm 2013 để tìm ngư dân mất tích, John Aldridge (mặc dù vậy, cho đến nay, trong cuộc săn lùng Chuyến bay 370 của Malaysia Airlines) .. ......, thống kê của Bayes đang gợn qua mọi thứ, từ vật lý đến nghiên cứu ung thư, sinh thái đến tâm lý học ...
Trong bài viết, cũng có một số lời chỉ trích về giá trị p của người thường xuyên, ví dụ:
Kết quả thường được coi là có ý nghĩa thống kê, nếu giá trị p nhỏ hơn 5%. Nhưng có một mối nguy hiểm trong truyền thống này, Andrew Gelman, giáo sư thống kê tại Columbia cho biết. Ngay cả khi các nhà khoa học luôn thực hiện các phép tính một cách chính xác - và họ không làm như vậy, ông lập luận - chấp nhận mọi thứ với giá trị p là 5% có nghĩa là một trong 20 kết quả có ý nghĩa thống kê của một người khác không phải là tiếng ồn ngẫu nhiên.
Bên cạnh đó, có lẽ bài báo nổi tiếng nhất chỉ trích giá trị p là bài này - "Phương pháp khoa học: Lỗi thống kê" của Regina Nuzzo từ Tự nhiên , trong đó rất nhiều vấn đề khoa học được đưa ra bởi phương pháp giá trị p đã được thảo luận, như các vấn đề về khả năng tái tạo, hack giá trị p, v.v.
Giá trị P, "tiêu chuẩn vàng" về giá trị thống kê, không đáng tin cậy như nhiều nhà khoa học giả định. ...... Có lẽ sai lầm tồi tệ nhất là kiểu tự lừa dối mà nhà tâm lý học Uri Simonsohn thuộc Đại học Pennsylvania và các đồng nghiệp đã phổ biến thuật ngữ P-hack; nó còn được gọi là nạo vét dữ liệu, rình mò, câu cá, rượt đuổi ý nghĩa và nhúng đôi. Cạn hack P, hack nói Simonsohn, đã thử nhiều thứ cho đến khi bạn nhận được kết quả mong muốn, ngay cả vô thức. ...... Phát hiện đó dường như có được nhờ hack p, các tác giả đã bỏ một trong những điều kiện để giá trị p tổng thể sẽ nhỏ hơn 0,05 và, Cô ấy là một hacker, cô ấy luôn theo dõi dữ liệu trong khi nó đang được thu thập.
Một điều nữa là một cốt truyện thú vị như sau từ đây , với nhận xét về cốt truyện:
Cho dù hiệu ứng của bạn có nhỏ đến mức nào, bạn luôn có thể thực hiện công việc khó khăn để thu thập dữ liệu để vượt qua ngưỡng p <0,05. Miễn là hiệu ứng bạn đang nghiên cứu không tồn tại, giá trị p chỉ đo lường mức độ nỗ lực của bạn trong việc thu thập dữ liệu.
Với tất cả những điều trên, câu hỏi của tôi là:
Lập luận của Andrew Gelman, trong trích dẫn khối thứ hai, có nghĩa chính xác là gì? Tại sao ông lại giải thích giá trị p 5% là "một trong 20 kết quả có ý nghĩa thống kê đáng chú ý nhưng là nhiễu ngẫu nhiên"? Tôi không bị thuyết phục vì với tôi giá trị p được sử dụng để suy luận về một nghiên cứu duy nhất. Quan điểm của ông dường như liên quan đến nhiều thử nghiệm.
Cập nhật: Kiểm tra blog của Andrew Gelman về điều này: Không, tôi không nói vậy! (Tín dụng cho @Scortchi, @whuber).
Đưa ra những lời chỉ trích về giá trị p và cũng có rất nhiều tiêu chí thông tin, như AIC, BIC, Mallow's để đánh giá tầm quan trọng của một mô hình (do đó biến), chúng ta không nên sử dụng giá trị p cho lựa chọn biến Nhưng sử dụng những tiêu chí lựa chọn mô hình?
- Có hướng dẫn thực tế tốt nào về việc sử dụng giá trị p để phân tích thống kê có thể dẫn đến kết quả nghiên cứu đáng tin cậy hơn không?
Liệu mô hình Bayes sẽ là một cách tốt hơn để theo đuổi, như một số người ủng hộ thống kê? Cụ thể, cách tiếp cận Bayes có nhiều khả năng giải quyết phát hiện sai hoặc thao túng các vấn đề dữ liệu? Tôi cũng không bị thuyết phục ở đây vì trước đó rất chủ quan trong cách tiếp cận Bayes. Có nghiên cứu thực tế và nổi tiếng nào cho thấy phương pháp Bayes tốt hơn giá trị p của người thường xuyên, hoặc ít nhất là trong một số trường hợp cụ thể không?
Cập nhật: Tôi sẽ đặc biệt quan tâm đến việc có những trường hợp phương pháp tiếp cận Bayes đáng tin cậy hơn phương pháp giá trị p thường xuyên hay không. Theo "đáng tin cậy", ý tôi là cách tiếp cận Bayes ít có khả năng thao túng dữ liệu cho kết quả mong muốn. Bất kỳ đề xuất?
Cập nhật ngày 6/9/2015
Chỉ cần chú ý tin tức, và nghĩ rằng sẽ tốt để đặt nó ở đây để thảo luận.
Một thử nghiệm thống kê gây tranh cãi cuối cùng đã kết thúc, ít nhất là trong một tạp chí. Đầu tháng này, các biên tập viên của Tâm lý học xã hội cơ bản và ứng dụng (BASP) tuyên bố rằng tạp chí sẽ không còn xuất bản các bài báo có chứa giá trị P vì các số liệu thống kê thường được sử dụng để hỗ trợ nghiên cứu chất lượng thấp hơn.
Cùng với một bài báo gần đây, "Giá trị P hay thay đổi tạo ra kết quả không thể đạt được" từ Nature , về giá trị P.
Cập nhật ngày 5/8/2016
Trở lại vào tháng 3, Hiệp hội Thống kê Hoa Kỳ (ASA) đã đưa ra các tuyên bố về ý nghĩa thống kê và giá trị p, ".... Tuyên bố ASA nhằm chỉ đạo nghiên cứu về một 'bài p <0,05.'"
Tuyên bố này chứa 6 nguyên tắc giải quyết việc sử dụng sai giá trị p:
- Giá trị P có thể chỉ ra mức độ không tương thích của dữ liệu với một mô hình thống kê được chỉ định.
- Giá trị P không đo lường xác suất giả thuyết được nghiên cứu là đúng hoặc xác suất dữ liệu được tạo ra chỉ bởi cơ hội ngẫu nhiên.
- Kết luận khoa học và các quyết định kinh doanh hoặc chính sách không nên chỉ dựa trên việc giá trị p có vượt qua một ngưỡng cụ thể hay không.
- Suy luận đúng yêu cầu báo cáo đầy đủ và minh bạch.
- Giá trị p, hoặc ý nghĩa thống kê, không đo lường kích thước của hiệu ứng hoặc tầm quan trọng của kết quả.
- Chính nó, một giá trị p không cung cấp một thước đo tốt về bằng chứng liên quan đến một mô hình hoặc giả thuyết.
Chi tiết: "Tuyên bố của ASA về giá trị p: bối cảnh, quy trình và mục đích" .