Tại sao giá trị p thấp hơn không có nhiều bằng chứng chống lại null? Luận cứ từ Johansson 2011


31

Johansson (2011) trong " Hail the could: p-value, bằng chứng và khả năng " (ở đây cũng liên kết với tạp chí ) nói rằng giá trị thấp hơn thường được coi là bằng chứng mạnh mẽ hơn chống lại null. Johansson ngụ ý rằng mọi người sẽ coi bằng chứng chống lại null là mạnh hơn nếu thử nghiệm thống kê của họ vượt qua giá trị là , so với khi thử nghiệm thống kê của họ vượt qua giá trị là . Johansson liệt kê bốn lý do tại sao giá trị không thể được sử dụng làm bằng chứng chống lại null:pp0.01p0.45p

  1. p được phân phối đồng đều theo giả thuyết null và do đó không bao giờ có thể chỉ ra bằng chứng cho null.
  2. p chỉ dựa vào giả thuyết khống và do đó không được sử dụng để định lượng bằng chứng, bởi vì bằng chứng luôn luôn tương đối theo nghĩa là bằng chứng cho hoặc chống lại một giả thuyết liên quan đến giả thuyết khác.
  3. p chỉ định xác suất thu được bằng chứng (được đưa ra là null), thay vì sức mạnh của bằng chứng.
  4. p phụ thuộc vào dữ liệu không được quan sát và ý định chủ quan và do đó ngụ ý, theo cách giải thích bằng chứng, rằng sức mạnh chứng minh của dữ liệu quan sát phụ thuộc vào những điều không xảy ra và ý định chủ quan.

Thật không may, tôi không thể có được sự hiểu biết trực quan từ bài viết của Johansson. Đối với tôi, giá trị là cho thấy ít có khả năng giá trị null là đúng, hơn giá trị là . Tại sao giá trị thấp hơn không phải là bằng chứng mạnh mẽ hơn chống lại null? p0.01p0.45p


Xin chào, @luciano! Tôi thấy rằng bạn đã không chấp nhận bất kỳ câu trả lời trong chủ đề này. Những loại câu trả lời bạn đang tìm kiếm? Là câu hỏi của bạn chủ yếu về các đối số của Johannson cụ thể, hoặc về các giá trị p thấp hơn nói chung?
amip nói phục hồi Monica

Đây là tất cả về khuôn khổ thường xuyên của Fisher vs Neyman-Pearson. Xem thêm trong câu trả lời này của @gung .
Firebug

Câu trả lời:


21

Đánh giá cá nhân của tôi về lập luận của mình:

  1. Ở đây, ông nói về việc sử dụng làm bằng chứng cho Null, trong khi luận điểm của ông là không thể được sử dụng làm bằng chứng chống lại Null. Vì vậy, tôi nghĩ rằng lập luận này phần lớn không liên quan.pp
  2. Tôi nghĩ rằng đây là một sự hiểu lầm. Thử nghiệm ngư dân tuân theo mạnh mẽ ý tưởng về Chủ nghĩa duy lý quan trọng của Popper nói rằng bạn không thể ủng hộ một lý thuyết mà chỉ phê phán nó. Vì vậy, theo nghĩa đó, chỉ có một giả thuyết duy nhất (Null) và bạn chỉ cần kiểm tra xem dữ liệu của bạn có phù hợp với nó không.p
  3. Tôi không đồng ý ở đây. Nó phụ thuộc vào thống kê kiểm tra nhưng thường là một phép biến đổi kích thước hiệu ứng nói lên Null. Vì vậy, hiệu ứng càng cao, giá trị p càng thấp --- tất cả những thứ khác bằng nhau. Tất nhiên, đối với các tập dữ liệu hoặc giả thuyết khác nhau, điều này không còn hợp lệ. p
  4. Tôi không chắc chắn tôi hoàn toàn hiểu câu nói này, nhưng từ những gì tôi có thể thu thập được thì đây không phải là vấn đề của vì mọi người sử dụng nó sai. được dự định để có sự diễn giải tần số dài hạn và đó là một tính năng không phải là một lỗi. Nhưng bạn không thể đổ lỗi cho khi mọi người lấy một giá trị làm bằng chứng cho giả thuyết của họ hoặc những người chỉ xuất bản . ppppp<.05

Theo tôi, gợi ý của ông về việc sử dụng tỷ lệ khả năng làm thước đo bằng chứng là một ý kiến ​​tốt (nhưng ở đây ý tưởng về yếu tố Bayes mang tính tổng quát hơn), nhưng trong bối cảnh mà ông mang đến thì hơi kỳ dị: Đầu tiên ông rời đi căn cứ của thử nghiệm Ngư dân nơi không có giả thuyết thay thế để tính tỷ lệ khả năng từ đó. Nhưng là bằng chứng chống lại Null là Ngư dân. Do đó, anh ta nhầm lẫn Fisher và Neyman-Pearson. Thứ hai, hầu hết các thống kê kiểm tra mà chúng tôi sử dụng là (các hàm của) tỷ lệ khả năng và trong trường hợp đó là một biến đổi của tỷ lệ khả năng. Như Cosma Shalizi nói:pp

trong số tất cả các thử nghiệm có kích thước cho trước, thử nghiệm có xác suất sai nhỏ nhất hoặc công suất cao nhất có dạng "say 'signal" nếu , nếu không nói là "nhiễu" , "Và ngưỡng thay đổi ngược với . Số lượng là tỷ lệ khả năng; Bổ đề Neyman-Pearson nói rằng để tối đa hóa sức mạnh, chúng ta nên nói "tín hiệu" nếu nó đủ khả năng hơn tiếng ồn.sq(x)/p(x)>t(s)tsq(x)/p(x)

Ở đây là mật độ dưới trạng thái "tín hiệu" và mật độ dưới trạng thái "nhiễu". Thước đo cho "đủ khả năng" ở đây sẽ là là . Lưu ý rằng trong thử nghiệm Neyman-Pearson chính xác, được thay thế bằng một cố định sao cho . q(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s)P(q(X)/p(x)>t(s)H0)=α


6
+1 cho điểm 3 một mình. Cox mô tả giá trị p là hiệu chuẩn của tỷ lệ khả năng (hoặc thống kê kiểm tra khác) & đó là một quan điểm thường bị lãng quên.
Scortchi - Phục hồi Monica

(+1) Câu trả lời hay, @Momo. Tôi tự hỏi nếu nó có thể được cải thiện bằng cách thêm một cái gì đó như "Nhưng chúng là!" trong một phông chữ lớn làm tiêu đề cho câu trả lời của bạn, bởi vì đây dường như là câu trả lời của bạn cho câu hỏi tiêu đề của OP "Tại sao giá trị p thấp hơn không có nhiều bằng chứng chống lại null?". Bạn gỡ lỗi tất cả các đối số đã cho, nhưng không cung cấp câu trả lời rõ ràng cho câu hỏi tiêu đề.
amip nói phục hồi Monica

1
Tôi sẽ có một chút do dự để làm điều đó, tất cả đều rất tinh tế và rất phụ thuộc vào các giả định, bối cảnh, v.v. Ví dụ, bạn có thể phủ nhận rằng các tuyên bố xác suất có thể được sử dụng làm "bằng chứng" và do đó tuyên bố này là chính xác. Theo quan điểm của Ngư dân thì không. Ngoài ra, tôi sẽ không nói rằng tôi gỡ lỗi (tất cả) các đối số, tôi nghĩ rằng tôi chỉ cung cấp một quan điểm khác và chỉ ra một số sai sót logic trong đối số. Tác giả lập luận tốt quan điểm của mình và cố gắng đưa ra giải pháp cho cách tiếp cận thích hợp mà bản thân nó có thể được coi là có vấn đề không kém.
Momo

9

Lý do mà các lập luận như của Johansson được tái chế thường dường như có liên quan đến thực tế là giá trị P là chỉ số của bằng chứng chống lại null nhưng không phải là biện pháp của bằng chứng. Bằng chứng có nhiều chiều hơn bất kỳ số nào có thể đo được, và do đó, luôn có các khía cạnh của mối quan hệ giữa giá trị P và bằng chứng mà mọi người có thể thấy khó khăn.

Tôi đã xem xét nhiều lập luận được Johansson sử dụng trong một bài báo cho thấy mối quan hệ giữa các giá trị P và các hàm khả năng, và do đó bằng chứng: http://arxiv.org/abs/1311.0081 Thật không may là bài báo đó đã bị từ chối ba lần, mặc dù lập luận của nó và bằng chứng cho chúng chưa được bác bỏ. (Có vẻ như thật khó chịu với các trọng tài nắm giữ ý kiến ​​như của Johansson chứ không phải sai.)


+1 @Michael Lew, còn việc thay đổi tiêu đề thì sao? Đến P (ee) hay không P (ee) ... không giống như một vấn đề nan giải. Chúng ta đều biết phải làm gì trong tình huống đó. = D Đùa sang một bên, lý do nào khiến bài báo của bạn bị từ chối?
Một ông già ở biển.

4

Thêm vào câu trả lời hay của @ Momo:

Đừng quên bội số. Với nhiều giá trị p độc lập và kích thước hiệu ứng không tầm thường thưa thớt, các giá trị p nhỏ nhất là từ null, với xác suất có xu hướng là khi số lượng giả thuyết tăng lên. Vì vậy, nếu bạn nói với tôi rằng bạn có một giá trị p nhỏ, điều đầu tiên tôi muốn biết là có bao nhiêu giả thuyết bạn đã thử nghiệm.1


2
Điều đáng chú ý là bản thân bằng chứng không bị ảnh hưởng bởi tính đa dạng của xét nghiệm, ngay cả khi phản ứng của bạn với bằng chứng có thể bị thay đổi. Bằng chứng trong dữ liệu là bằng chứng trong dữ liệu và nó không bị ảnh hưởng bởi bất kỳ tính toán nào bạn có thể thực hiện trong máy tính của mình. Việc 'hiệu chỉnh' điển hình của giá trị p cho tính đa bội của thử nghiệm phải thực hiện với việc duy trì tỷ lệ lỗi dương tính giả, không sửa mối quan hệ giữa giá trị p và bằng chứng thực nghiệm.
Michael Lew

1

Có phải Johansson đang nói về giá trị p từ hai thí nghiệm khác nhau? Nếu vậy, so sánh giá trị p có thể giống như so sánh táo với sườn cừu. Nếu thí nghiệm "A" liên quan đến một số lượng lớn các mẫu, thì ngay cả một sự khác biệt nhỏ không đáng kể cũng có thể có ý nghĩa thống kê. Nếu thí nghiệm "B" chỉ liên quan đến một vài mẫu, một sự khác biệt quan trọng có thể không có ý nghĩa thống kê. Thậm chí tệ hơn (đó là lý do tại sao tôi nói sườn cừu chứ không phải cam), vảy có thể hoàn toàn không thể so sánh được (psi ở một và kwh ở bên kia).


3
Ấn tượng của tôi là Johansson không nói về việc so sánh giá trị p từ các thí nghiệm khác nhau. Theo nhận xét của & @ Glen_b, bạn có phiền khi làm rõ bài đăng của mình không, Emil? Sẽ tốt hơn nếu nêu ra một điểm liên quan ('Tôi nghĩ rằng J sai trong bối cảnh A, nhưng nó sẽ có một số giá trị trong bối cảnh B'), nhưng cần phải rõ ràng rằng đó là những gì bạn đang làm. Nếu bạn đang đặt câu hỏi hoặc bình luận, xin vui lòng xóa bài đăng này và làm cho nó một bình luận.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.