Giải thích giá trị p trong kiểm tra giả thuyết


36

Gần đây tôi đã bắt gặp bài báo "Sự không đáng kể của thử nghiệm ý nghĩa giả thuyết Null", Jeff Gill (1999) . Tác giả đã nêu ra một số quan niệm sai lầm phổ biến liên quan đến kiểm tra giả thuyết và giá trị p, trong đó tôi có hai câu hỏi cụ thể:

  1. Giá trị p về mặt kỹ thuật là , như được chỉ ra bởi bài báo, thường không cho chúng ta biết bất cứ điều gì về , trừ khi chúng ta tình cờ biết các phân phối cận biên, điều hiếm khi xảy ra trong thử nghiệm giả thuyết "hàng ngày". Khi chúng tôi có được giá trị p nhỏ và "từ chối giả thuyết khống", chính xác thì tuyên bố xác suất mà chúng tôi đang thực hiện là gì, vì chúng tôi không thể nói bất cứ điều gì về ?P(observation|H0)P(H0|observation)P(H0|observation)
  2. Câu hỏi thứ hai liên quan đến một tuyên bố cụ thể từ trang 6 (652) của bài báo:

Vì giá trị p hoặc phạm vi của giá trị p được chỉ định bởi các ngôi sao, không được đặt trước, nên đây không phải là xác suất dài hạn gây ra lỗi Loại I nhưng thường được xử lý như vậy.

Bất cứ ai có thể giúp để giải thích những gì có nghĩa là tuyên bố này?


TY để tham khảo bài báo
Ludovic Kuty

@ezbentley: có lẽ thật thú vị khi lấy llok theo câu trả lời của tôi: stats.stackexchange.com/questions/166323/ Kẻ

Câu trả lời:


33

(Về mặt kỹ thuật, giá trị P là xác suất quan sát dữ liệu ít nhất là cực đoan như thực tế quan sát được, đưa ra giả thuyết khống.)

Q1. Quyết định bác bỏ giả thuyết khống trên cơ sở giá trị P nhỏ thường phụ thuộc vào 'Sự phân biệt của Fisher': Hoặc là một sự kiện hiếm gặp đã xảy ra hoặc giả thuyết null là sai. Trên thực tế, sự hiếm có của sự kiện là giá trị P cho bạn biết thay vì xác suất null là sai.

Xác suất null là sai có thể được lấy từ dữ liệu thực nghiệm chỉ bằng định lý của Bayes, yêu cầu xác định xác suất 'trước' của giả thuyết null (có lẽ là cái mà Gill đang gọi là "phân phối biên").

Quý 2 Phần câu hỏi này của bạn khó hơn nhiều so với vẻ ngoài của nó. Có rất nhiều nhầm lẫn về giá trị P và tỷ lệ lỗi, có lẽ, có lẽ là những gì mà Gill đang đề cập đến với "nhưng thường được xử lý như vậy." Sự kết hợp của các giá trị P của Ngư dân với tỷ lệ lỗi Neyman-Pearsonian đã được gọi là một sự nhầm lẫn không liên tục, và thật không may là rất phổ biến. Không có câu trả lời ngắn nào sẽ hoàn toàn đầy đủ ở đây, nhưng tôi có thể chỉ cho bạn một vài bài viết hay (vâng, một là của tôi). Cả hai sẽ giúp bạn có ý nghĩa của tờ giấy.

Hurlbert, S., & Lombardi, C. (2009). Sự sụp đổ cuối cùng của khuôn khổ lý thuyết quyết định Neyman-Pearson và sự trỗi dậy của tân sinh viên. Annales Zoologici Fennici, 46 (5), 311 Từ349. (Liên kết đến giấy)

Luân, MJ (2012). Thực hành thống kê không tốt về dược lý (và các ngành y sinh cơ bản khác): bạn có thể không biết P. Tạp chí Dược học Anh, 166 (5), 1559 Pha1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Liên kết đến giấy)


Cảm ơn bạn đã làm rõ. Là nó không chính xác về mặt kỹ thuật để đưa ra tuyên bố như "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Nguồn gốc của sự nhầm lẫn dường như là không có yêu cầu xác suất thực sự nào được đưa ra cho giả thuyết null khi chúng ta nói null bị "từ chối".

2
@ezbentley, điều đó thực sự phụ thuộc vào ý nghĩa của bạn. Từ đó không thực sự rất có ý nghĩa trong hầu hết các bối cảnh bởi vì nó đã bị ô nhiễm bởi giống lai Fisher-Neyman-Pearson. Nếu bạn thu được giá trị P rất nhỏ thì công bằng mà nói rằng giá trị trung bình thực có lẽ không phải là 0, nhưng điều quan trọng là phải nói ý nghĩa quan sát là gì và chỉ ra độ biến thiên của nó (SEM hoặc khoảng tin cậy) và không ' t quên nói kích thước mẫu là gì Giá trị P không thay thế cho đặc điểm kỹ thuật của kích thước hiệu ứng quan sát được.
Michael Lew

Cám ơn vì đã giải thích. Tôi cần đào sâu hơn vào mô hình của Fisher và Neyman-Pearson.

@Michael Lew: Có lẽ thật thú vị khi xem câu trả lời của tôi: stats.stackexchange.com/questions/166323/ Kẻ

Đoạn văn của bạn dưới Q1 có lẽ là lời giải thích tốt nhất về vấn đề tôi đã thấy cho đến nay. Cảm ơn bạn.
Maxim.K

22

+1 cho @MichaelLew, người đã cung cấp cho bạn một câu trả lời hay. Có lẽ tôi vẫn có thể đóng góp bằng cách cung cấp cách suy nghĩ về Q2. Hãy xem xét tình huống sau:

  • p
  • α0.05
  • p0.01

pp0.02p0.049¯pα

p


1
Làm việc trong một lĩnh vực (epi) trong đó đôi khi rất khó tin rằng giả thuyết H_0 = 0 thực sự đúng, tôi nghĩ rằng điểm này bị bỏ qua và đáng được chú ý hơn nhiều.
boscovich

1
α

1
+1, nhưng gợi ý rằng ý nghĩa của giá trị P không rõ ràng khi null là sai là sai. Giá trị P càng nhỏ thì sự chênh lệch giữa null và quan sát càng lớn. Kích thước mẫu càng lớn, có thể giả định rằng kích thước hiệu ứng thực sự càng gần với kích thước hiệu ứng quan sát được. Nó rất hữu ích để lưu ý rằng thử nghiệm có ý nghĩa tương tự như ước tính.
Michael Lew

3
@MichaelLew, tôi không chắc rằng giá trị p có nghĩa là những thứ này. Kết hợp w / N (& cụ thể, giữ N không đổi) một p nhỏ hơn sẽ tương ứng với chênh lệch lớn hơn b / t null & được quan sát. Thậm chí sau đó, đó là nhiều thứ có thể được suy ra từ p hơn là thứ p có nghĩa . Cũng đúng là kích thước hiệu ứng quan sát được N lớn hơn sẽ gần với ES thực sự hơn, nhưng đối với tôi thì vai trò của p ở đó không rõ ràng hơn. EG, w / a null null, hiệu ứng thực sự vẫn có thể rất nhỏ, & w / N lớn, chúng tôi hy vọng ES quan sát được gần, nhưng p vẫn có thể lớn.
gung - Phục hồi Monica

1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α

8

Tôi muốn đưa ra một nhận xét liên quan đến "tầm quan trọng của thử nghiệm ý nghĩa giả thuyết null" nhưng không trả lời câu hỏi của OP.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0


3
+1 Có, vấn đề thực sự với kiểm tra giả thuyết thông thường là nó trả lời một câu hỏi mà bạn không thực sự quan tâm đến việc trả lời, tức là "có bằng chứng đáng kể nào về sự khác biệt không?", Thay vì "có bằng chứng nào cho thấy sự khác biệt đáng kể không? ". Tất nhiên điều thực sự mong muốn nói chung là "xác suất mà giả thuyết nghiên cứu của tôi là đúng là gì?", Nhưng điều này không thể được trả lời trong khuôn khổ thường xuyên. Việc giải thích sai thường phát sinh từ những nỗ lực điều trị kiểm tra thường xuyên theo thuật ngữ Bayes.
Dikran Marsupial

1
Việc phân tách ý nghĩa của giá trị P và cỡ mẫu không phải là ý kiến ​​hay. Giá trị P nhỏ hơn biểu thị kích thước hiệu ứng lớn hơn ở bất kỳ kích thước mẫu cụ thể nào và đối với bất kỳ giá trị P cụ thể nào, kích thước mẫu lớn hơn cho thấy kích thước hiệu ứng thực có lẽ gần với kích thước hiệu ứng quan sát được. Các bài kiểm tra quan trọng nên được nghĩ đến trong bối cảnh ước tính, không phải lỗi. Một mẫu lớn hơn luôn cung cấp nhiều thông tin hơn - làm thế nào để diễn giải nó tùy thuộc vào người thí nghiệm. Khiếu nại mẫu lớn không đáng kể chỉ là một vấn đề đối với thử nghiệm giả thuyết Neyman-Pearsonian.
Michael Lew
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.