Giá trị chính xác của 'giá trị p' là vô nghĩa?


31

Tôi đã có một cuộc thảo luận với một nhà thống kê hồi năm 2009, nơi ông nói rằng giá trị chính xác của giá trị p là không liên quan: điều duy nhất quan trọng là nó có ý nghĩa hay không. Tức là một kết quả không thể quan trọng hơn kết quả khác; ví dụ mẫu của bạn, đến từ cùng một dân số hoặc không.

Tôi có một số điều với điều này, nhưng có lẽ tôi có thể hiểu ý thức hệ:

  1. Ngưỡng 5% là tùy ý, nghĩa là p = 0,051 không đáng kể và p = 0,049 là, không nên thực sự thay đổi kết luận về quan sát hoặc thử nghiệm của bạn, mặc dù một kết quả có ý nghĩa và kết quả khác không đáng kể.

    Lý do tôi đưa ra điều này bây giờ là vì tôi đang học thạc sĩ về Tin sinh học, và sau khi nói chuyện với mọi người trong lĩnh vực này, dường như có một nỗ lực quyết tâm để có được giá trị p chính xác cho mỗi bộ thống kê họ làm. Chẳng hạn, nếu họ 'đạt được' giá trị p của p <1.9 × 10 -12 , họ muốn chứng minh kết quả của họ có ý nghĩa như thế nào và kết quả này là SIÊU thông tin. Vấn đề này được minh họa bằng các câu hỏi như: Tại sao tôi không thể có giá trị p nhỏ hơn 2.2e-16? , theo đó họ muốn ghi lại một giá trị chỉ ra rằng chỉ có cơ hội, đây sẽ là NHIỀU ít hơn 1 nghìn tỷ. Nhưng tôi thấy rất ít sự khác biệt trong việc chứng minh rằng kết quả này sẽ xảy ra ít hơn 1 phần nghìn tỷ so với 1 trong một tỷ.

  2. Tôi có thể đánh giá cao rằng p <0,01 cho thấy có ít hơn 1% khả năng điều này sẽ xảy ra, trong khi p <0,001 chỉ ra rằng một kết quả như thế này thậm chí còn khó xảy ra hơn giá trị p đã nói ở trên, nhưng nếu kết luận của bạn được rút ra hoàn toàn khác nhau? Sau khi tất cả chúng đều là giá trị p đáng kể. Cách duy nhất tôi có thể hình dung là muốn ghi lại giá trị p chính xác là trong quá trình hiệu chỉnh Bonferroni, theo đó ngưỡng thay đổi do số lượng so sánh được thực hiện, do đó giảm lỗi loại I. Nhưng ngay cả khi vẫn còn, tại sao bạn muốn hiển thị giá trị p nhỏ hơn 12 bậc so với mức ý nghĩa ngưỡng của bạn?

  3. Và không phải việc áp dụng hiệu chỉnh Bonferroni cũng hơi tùy tiện sao? Theo nghĩa ban đầu, sự hiệu chỉnh được xem là rất bảo thủ, và do đó, có những sự điều chỉnh khác mà người ta có thể chọn để truy cập mức ý nghĩa mà người quan sát có thể sử dụng cho nhiều so sánh của họ. Nhưng vì điều này, không phải là điểm mà một thứ gì đó trở nên quan trọng về cơ bản phụ thuộc vào số liệu thống kê mà nhà nghiên cứu muốn sử dụng. Số liệu thống kê nên được mở để giải thích?

Tóm lại, không nên thống kê ít chủ quan hơn (mặc dù tôi đoán rằng sự cần thiết phải chủ quan là hệ quả của một hệ thống đa biến), nhưng cuối cùng tôi muốn làm rõ một điều gì đó: có thể có gì quan trọng hơn điều gì khác không? Và p <0,001 có đủ để cố gắng ghi lại giá trị p chính xác không?


6
Điều này khá thú vị: stat.washington.edu/peter/342/nuzzo.pdf
Dan

4
Liên quan một cách lỏng lẻo: Trong câu trả lời của tôi cho câu hỏi Khi nào nên sử dụng khung của Fisher và Neyman-Pearson , tôi lập luận rằng có một vai trò cho mỗi khung. Để giữ vị trí của tôi ở đó, tôi sẽ nói rằng các giá trị p chính xác sẽ không quan trọng trong khung NP, nhưng có thể là khung Ngư nghiệp (trong phạm vi số chữ số được báo cáo là thực sự đáng tin cậy).
gung - Phục hồi Monica

Thật đáng ngạc nhiên khi một số nhà thống kê muốn giữ vững khái niệm giá trị p khi nó thường là câu trả lời đúng cho câu hỏi sai. Giả sử giá trị p không được triển khai trong bất kỳ gói phần mềm thống kê nào. Tôi nghi ngờ rằng mọi người sẽ viết mã riêng của họ để có được nó.
xác suất

3
@probabilityislogic - đã cắt răng thống kê của tôi trong các bài kiểm tra hoán vị, giá trị p là một cách rất tự nhiên để suy nghĩ trong trường hợp đó, vì vậy tôi có thể viết mã của riêng mình để lấy chúng nếu chúng không ... và thực tế, trên rất hiếm khi tôi thực hiện các bài kiểm tra, chúng thường dành cho một số tình huống không điển hình cần mô phỏng hoặc một số hình thức lấy mẫu lại, tôi thấy tôi thực sự có xu hướng làm như vậy. Thay vào đó tôi có xu hướng nói rằng các bài kiểm tra giả thuyết thường trả lời sai câu hỏi. Trong dịp hiếm hoi họ làm, tôi nghĩ họ có giá trị (nhất là, những người khác không bị ràng buộc bởi mức độ quan trọng của tôi).
Glen_b -Reinstate Monica

@glen_b - Vấn đề của tôi với giá trị p là việc không cung cấp "câu trả lời" cho bất kỳ bài kiểm tra giả thuyết nào, vì họ bỏ qua các lựa chọn thay thế. Nếu bạn bị giới hạn chỉ một số, thì giá trị của khả năng dữ liệu là một thống kê tốt hơn nhiều so với giá trị p (cũng như có cùng các vấn đề như p). Bằng cách này, mọi người không bị ràng buộc bởi sự lựa chọn thống kê kiểm tra của bạn (ngoài việc không bị ràng buộc bởi ngưỡng quan trọng của bạn).
xác suất

Câu trả lời:


24
  1. Tỷ lệ lỗi từ chối loại 1 / sai không hoàn toàn tùy ý, nhưng đúng, nó gần. Nó có phần thích hợp hơn với α = .051 vì nó ít phức tạp hơn về mặt nhận thức ( mọi người thích số tròn và bội số của năm ). Đó là một sự thỏa hiệp hợp lý giữa sự hoài nghi và tính thực tế, mặc dù có thể hơi lỗi thời - phương pháp hiện đại và tài nguyên nghiên cứu có thể làm cho các tiêu chuẩn cao hơn (nghĩa là giá trị thấp hơn ) được ưa thích, nếu phải có tiêu chuẩn ( Johnson, 2013 ) .α= =0,05α= =.051p

    IMO, vấn đề lớn hơn sự lựa chọn ngưỡng là sự lựa chọn thường không được minh bạch để sử dụng ngưỡng mà không cần thiết hoặc không hữu ích. Trong các tình huống phải đưa ra lựa chọn thực tế, tôi có thể thấy giá trị, nhưng nhiều nghiên cứu cơ bản không bắt buộc phải đưa ra quyết định bác bỏ bằng chứng của một người và từ bỏ triển vọng từ chối null chỉ vì một bằng chứng mẫu nhất định chống lại nó của hầu hết các ngưỡng hợp lý. Tuy nhiên, phần lớn các tác giả của nghiên cứu này cảm thấy bắt buộc phải làm như vậy theo quy ước và chống lại điều đó một cách không thoải mái, phát minh ra các thuật ngữ như "bên lề" để cầu xin sự chú ý khi họ có thể cảm thấy nó trượt đi vì khán giả của họ thường không quan tâm đến s . 05 .p0,05pgiải thích giá trị, bạn sẽ thấy nhiều sự bất đồng về việc giải thích giá trị theo nhị phân / quyết định liên quan đến null.pfail toreject

  2. ppp

    p

  3. α

    p

fail torejectpgiá trị được báo cáo? (và tại sao R đặt tối thiểu trên 2,22e-16?) "- nó tốt hơn nhiều so với câu trả lời cho phiên bản của câu hỏi mà bạn đã liên kết trên Stack Overflow!

Tài liệu tham khảo
- Johnson, VE (2013). Sửa đổi tiêu chuẩn cho bằng chứng thống kê. Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia, 110 (48), 19313 Bóng19317. Lấy từ http://www.pnas.org/content/110/48/19313.full.pdf .
- Luân, MJ (2013). To P or not to P: Về bản chất bằng chứng của các giá trị P và vị trí của chúng trong suy luận khoa học. arXiv: 1311.0081 [stat.ME]. Lấy từ http://arxiv.org/abs/1311.0081 .


3
+1, rất nhiều suy nghĩ tốt ở đây. Mặc dù vậy, 1 phân minh, tôi muốn nói rằng chúng ta nên thường có các tiêu chuẩn thấp hơn (nghĩa là giá trị p cao hơn ) nếu muốn. Thường rất khó để có đủ dữ liệu để có sức mạnh tốt để nghiên cứu một cái gì đó. Tôi đã thực hiện một số phân tích sức mạnh cho các bác sĩ muốn nghiên cứu một tình trạng hiếm gặp. Họ nói, 'điều này thực sự được đánh giá thấp, tôi có ý tưởng cho một cách tiếp cận mới, chúng tôi có thể có 50 bệnh nhân trong vòng hai năm tới', và tôi nói 'sức mạnh của bạn sẽ là 45%', và dự án là bị bỏ rơi. Các bệnh hiếm gặp sẽ tiếp tục được đánh giá thấp nếu p phải từ 0,05 trở xuống.
gung - Phục hồi Monica

2
@gung: Mình đồng ý hoàn toàn. Tôi đã trích dẫn Johnson (2013) chỉ vì tôi biết về lập luận của anh ấy chứ không phải vì tôi đồng ý với nó :) IMO, có một tiêu chuẩn thông thường không linh hoạt và không nhạy cảm với những lo ngại mà bạn mô tả (lặp lại quan điểm của tôi trong đoạn thứ hai của tôi phản hồi với # 3) là một trong những vấn đề cốt lõi và việc điều chỉnh nó lên hoặc xuống sẽ không giải quyết được nó. Khi không có nhu cầu thực sự cho một cứng và nhanh fail to/ rejectquyết định, tôi nghĩ rằng nó tốt hơn nhiều để làm cho bản án như thế nào có giá trị của một người bằng chứng dựa trên nhiều hơn so với xác suất của các mẫu cho các null.
Nick Stauner

4
Thảo luận tuyệt vời. Một bài viết thú vị về sự liên quan là Gelman và Stern. Sự khác biệt giữa có ý nghĩa về mối quan hệ giữa Gelman và Stern không phải là có ý nghĩa thống kê (sau này được xuất bản trong American Statistician, 2006), mà tôi không nói là đặc trưng cho giá trị của p là nhất thiết vô nghĩa nhưng sẽ gây chú ý mạnh mẽ về việc chú trọng nhiều vào việc so sánh giá trị p (thay vì ước tính hiệu quả, nói). Gelman đã thảo luận các vấn đề liên quan đến điều này thường xuyên trên blog của mình.
Glen_b -Reinstate Monica

2
ppp

2
Có vẻ như Gelman cung cấp một liên kết đến pdf của bài báo được xuất bản trên trang web của mình.
Glen_b -Reinstate Monica

13

Dường như với tôi rằng, nếu một giá trị có ý nghĩa, giá trị chính xác của nó là có ý nghĩa.

Giá trị p trả lời câu hỏi này:

Nếu, trong quần thể mà mẫu này được rút ngẫu nhiên, giả thuyết khống là đúng, xác suất để có được một thống kê kiểm tra ít nhất là cực đoan như mẫu chúng ta có trong mẫu là gì?

Điều gì về định nghĩa này làm cho một giá trị chính xác trở nên vô nghĩa?

Đây là một câu hỏi khác với những câu hỏi về giá trị cực đoan của p. Vấn đề với các câu lệnh liên quan đến p với nhiều 0 là về mức độ chúng ta có thể ước tính p trong các cực trị. Vì chúng ta không thể làm điều đó rất tốt, nên việc sử dụng các ước tính chính xác như vậy của p là vô nghĩa. Đây là cùng một lý do chúng tôi không nói rằng p = 0,0319281010012981. Chúng tôi không biết những chữ số cuối cùng với sự tự tin.

Kết luận của chúng ta có nên khác nếu p <0,001 chứ không phải p <0,05? Hoặc, để sử dụng các số chính xác, kết luận của chúng ta có nên khác không nếu p = 0,00023 thay vì p = 0,035?

Tôi nghĩ vấn đề là ở cách chúng ta thường kết luận mọi thứ về p. Chúng tôi nói "đáng kể" hoặc "không đáng kể" dựa trên một số mức độ tùy ý. Nếu chúng ta sử dụng các mức tùy ý này, thì, vâng, kết luận của chúng tôi sẽ khác nhau. Nhưng đây không phải là cách chúng ta nên nghĩ về những điều này. Chúng ta nên xem xét trọng lượng của bằng chứng và kiểm tra thống kê chỉ là một phần của bằng chứng đó. Tôi sẽ (một lần nữa) cắm "tiêu chí MAGIC" của Robert Abelson:

Tầm quan trọng - hiệu ứng lớn như thế nào?

Phát âm - chính xác như thế nào được nêu? Có rất nhiều ngoại lệ?

Tính tổng quát - áp dụng cho nhóm nào?

Thú vị - mọi người sẽ quan tâm chứ?

Sự tín nhiệm - nó có ý nghĩa không?

Đó là sự kết hợp của tất cả những điều quan trọng. Lưu ý rằng Abelson hoàn toàn không đề cập đến giá trị p, mặc dù chúng xuất hiện dưới dạng lai giữa cường độ và khớp nối.


5
Chúng tôi không thường nói như vậy, nhưng về mặt kỹ thuật, giá trị p chỉ phản ánh điều gì đó về "xác suất lấy được thống kê kiểm tra ít nhất là cực đoan như chúng tôi có trong mẫu" nếu giả thuyết null là đúng, ước tính mẫu của chúng tôi của phương sai dân số là hoàn toàn chính xác, và chúng tôi đáp ứng tất cả các giả định khác của thử nghiệm của chúng tôi. Đưa ra một số khoảng tin cậy xung quanh một số giá trị p thông qua bootstrapping và tôi nghĩ rằng bạn sẽ thấy rằng chúng ta thường không tự tin về vị trí thứ một trăm.
russellpierce

2
Nói tóm lại, thật là một sự đối nghịch phức tạp đến mức cố gắng định lượng giá trị p là phản tác dụng khi chúng ta thực sự nên (như bạn ngụ ý) quay lại MAGIC.
russellpierce

Tôi phải thừa nhận, tôi đã không nghĩ đến việc đặt khoảng tin cậy (hoặc khoảng tin cậy) xung quanh các giá trị p. Tôi tự hỏi bao nhiêu đã được thực hiện trong lĩnh vực này?
Peter Flom - Tái lập Monica

2
Tôi không có một trích dẫn tiện dụng, nhưng tôi biết có những công việc dọc theo những dòng đó - bất kể, đó là một việc học vì bạn có thể thực hiện các khoảng tin cậy về khoảng tin cậy của bạn trong khoảng tin cậy của bạn gần như quảng cáo vô hạn (có tối đa phương sai được ước tính hợp lý từ bất kỳ tập hợp dữ liệu nào). Tôi đã có một cuộc trò chuyện khá dài và chi tiết dọc theo những dòng này với @Nick Stauner một lần. Anh ta có thể vẫn còn một số bài báo anh ta đã đào trong cuộc trò chuyện đó để mang lên bàn.
russellpierce

1
Không có gì về khoảng tin cậy cho các giá trị p mà tôi nhớ lại, nhưng tôi có thể đã lướt qua các phần đó. Tôi cũng không quan tâm đến việc tạo khoảng tin cậy cho các giá trị p ;)
Nick Stauner
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.