Là giá trị p nhỏ hơn thuyết phục hơn?


31

Tôi đã đọc các giá trị , tỷ lệ lỗi loại 1, mức ý nghĩa, tính toán công suất, kích thước hiệu ứng và cuộc tranh luận giữa Fisher và Neyman-Pearson. Điều này đã khiến tôi cảm thấy một chút choáng ngợp. Tôi xin lỗi về bức tường văn bản, nhưng tôi cảm thấy cần phải cung cấp một cái nhìn tổng quan về sự hiểu biết hiện tại của tôi về các khái niệm này, trước khi tôi chuyển sang các câu hỏi thực tế của mình.p


Từ những gì tôi đã thu thập được, giá trị chỉ đơn giản là thước đo của sự bất ngờ, xác suất đạt được kết quả ít nhất là cực đoan, cho rằng giả thuyết null là đúng. Fisher ban đầu dự định cho nó là một biện pháp liên tục.p

Trong khung Neyman-Pearson, bạn chọn trước một mức ý nghĩa và sử dụng mức này làm điểm cắt (tùy ý). Mức ý nghĩa bằng tỷ lệ lỗi loại 1. Nó được xác định bởi tần số chạy dài, tức là nếu bạn lặp lại một thử nghiệm 1000 lần và giả thuyết khống là đúng, khoảng 50 trong số các thử nghiệm đó sẽ dẫn đến một hiệu ứng đáng kể , do tính biến thiên của mẫu. Bằng cách chọn một mức ý nghĩa, chúng tôi đang tự bảo vệ mình trước những tích cực sai lầm này với một xác suất nhất định. -values ​​theo truyền thống không xuất hiện trong khung này.P

Nếu chúng ta tìm thấy giá trị là 0,01 thì điều này không có nghĩa là tỷ lệ lỗi loại 1 là 0,01, lỗi loại 1 được nêu là tiên nghiệm. Tôi tin rằng đây là một trong những tranh luận chính trong cuộc tranh luận giữa Fisher và NP, bởi vì giá trị thường được báo cáo là 0,05 *, 0,01 **, 0,001 ***. Điều này có thể khiến mọi người hiểu lầm rằng hiệu ứng này rất có ý nghĩa ở một giá trị nhất định , thay vì ở một giá trị quan trọng nhất định.ppp

Tôi cũng nhận ra rằng giá trị là một hàm của cỡ mẫu. Do đó, nó không thể được sử dụng như một phép đo tuyệt đối. Một giá trị nhỏ có thể chỉ ra một hiệu ứng nhỏ, không liên quan trong một thí nghiệm mẫu lớn. Để chống lại điều này, điều quan trọng là phải thực hiện tính toán kích thước công suất / hiệu ứng khi xác định kích thước mẫu cho thử nghiệm của bạn. cho chúng ta biết liệu có ảnh hưởng hay không, nó lớn đến mức nào. Xem Sullivan 2012 .ppP

Câu hỏi của tôi: Làm thế nào tôi có thể điều hòa sự thật rằng giá trị là thước đo của sự bất ngờ (nhỏ hơn = thuyết phục hơn) trong khi đồng thời nó không thể được xem là một phép đo tuyệt đối?p

Điều tôi bối rối là, như sau: chúng ta có thể tự tin hơn vào một giá trị nhỏ hơn một giá trị lớn không? Theo nghĩa của Ngư dân, tôi sẽ nói có, chúng tôi ngạc nhiên hơn. Trong khung NP, việc chọn mức ý nghĩa nhỏ hơn có nghĩa là chúng ta đang tự bảo vệ mình mạnh mẽ hơn trước những kết quả sai.p

Nhưng mặt khác, giá trị phụ thuộc vào kích thước mẫu. Họ không phải là một biện pháp tuyệt đối. Do đó, chúng ta không thể đơn giản nói 0,001593 có ý nghĩa hơn 0,0439. Tuy nhiên, đây là những gì sẽ được ngụ ý trong khuôn khổ của Fisher: chúng ta sẽ ngạc nhiên hơn với một giá trị cực đoan như vậy. Thậm chí còn có cuộc thảo luận về thuật ngữ rất có ý nghĩa là một cách hiểu sai: Có sai không khi coi kết quả là "rất có ý nghĩa"?p

Tôi đã nghe nói rằng giá trị trong một số lĩnh vực khoa học chỉ được coi là quan trọng khi chúng nhỏ hơn 0,0001, trong khi ở các lĩnh vực khác, giá trị khoảng 0,01 đã được coi là rất có ý nghĩa.p

Câu hỏi liên quan:


Ngoài ra, đừng quên rằng giá trị p "đáng kể" không cho bạn biết gì về lý thuyết của bạn. Điều này thậm chí được thừa nhận bởi những người bảo vệ hăng hái nhất: Tiền đề có ý nghĩa thống kê: Cơ sở lý luận, tính hợp lệ và tiện ích. Siu L. Chow. KHOA HỌC TUYỆT VỜI VÀ TUYỆT VỜI (1998) 21, 169 Từ239 Dữ liệu được diễn giải khi bị biến thành bằng chứng. Các giả định giải thích dựa trên nhu cầu được liệt kê và sau đó, nếu có thể, được kiểm tra. Điều gì đang được đo lường?
Sống động vào

2
+1, nhưng tôi sẽ khuyến khích bạn tập trung vào câu hỏi và loại bỏ các câu hỏi phụ. Nếu bạn quan tâm tại sao một số người lập luận rằng khoảng tin cậy tốt hơn giá trị p, hãy hỏi một câu hỏi riêng (nhưng đảm bảo rằng nó chưa được hỏi trước đó).
amip nói rằng Phục hồi lại

3
Ngoài ra, làm thế nào câu hỏi của bạn không phải là một bản sao của Tại sao giá trị p thấp hơn không có nhiều bằng chứng chống lại null? Bạn đã thấy chủ đề đó? Có lẽ bạn có thể thêm nó vào danh sách ở cuối bài viết của bạn. Xem thêm một câu hỏi tương tự Có ý nghĩa gì khi so sánh giá trị p với nhau? , nhưng tôi miễn cưỡng đề xuất chủ đề đó, bởi vì câu trả lời được chấp nhận có IMHO không chính xác / gây hiểu lầm (xem thảo luận trong các bình luận).
amip nói rằng Phục hồi lại


2
Cảm ơn các liên kết, @Glen_b; Tôi biết rõ về giấy Gelman & Stern và thường tự mình đề cập đến nó, nhưng chưa thấy bài báo năm 2013 này hoặc cuộc thảo luận trước đó. Tuy nhiên, tôi muốn cảnh báo OP về việc diễn giải Gelman & Stern trong bối cảnh câu hỏi của anh ấy / cô ấy. G & S đưa ra một ví dụ hay với hai nghiên cứu ước tính hiệu ứng là 10 ± 10 ; trong một trường hợp p < 0,01 , trong một p > 0,05 khác , nhưng sự khác biệt giữa các ước tính là không đáng kể. Điều này rất quan trọng để ghi nhớ, nhưng nếu bây giờ, sau OP, chúng tôi hỏi liệu nghiên cứu đầu tiên có thuyết phục hơn không, tôi chắc chắn sẽ nói có. 25±1010±10p<0,01p>0,05
amip nói phục hồi lại

Câu trả lời:


18

Giá trị nhỏ hơn có "thuyết phục" hơn không? Vâng, tất nhiên họ là.p

Trong khuôn khổ Fisher, -value là một lượng hóa lượng bằng chứng chống lại giả thuyết khống. Bằng chứng có thể ít nhiều thuyết phục; giá trị p càng nhỏ thì càng thuyết phục. Lưu ý rằng trong bất kỳ thử nghiệm đã cho nào với kích thước mẫu cố định n , giá trị p có liên quan đơn điệu đến kích thước hiệu ứng, vì @Scortchi chỉ ra một cách độc đáo trong câu trả lời của anh ấy (+1). Vì vậy, giá trị p nhỏ hơn tương ứng với kích thước hiệu ứng lớn hơn; tất nhiên họ có sức thuyết phục hơn!ppnpp

Trong khuôn khổ Neyman-Pearson, mục tiêu là có được quyết định nhị phân: bằng chứng là "có ý nghĩa" hoặc không. Bằng cách lựa chọn ngưỡng , chúng tôi đảm bảo rằng chúng tôi sẽ không có nhiều hơn α dương tính giả. Lưu ý rằng những người khác nhau có thể có khác nhau α trong tâm trí khi nhìn vào cùng một dữ liệu; có lẽ khi tôi đọc một bài báo từ một lĩnh vực mà tôi nghi ngờ, tôi sẽ không xem xét cá nhân là kết quả "có ý nghĩa" với ví dụ p = 0,03 mặc dù các tác giả gọi chúng là quan trọng. Cá nhân của tôi α có thể được thiết lập để 0,001 hoặc một cái gì đó. Rõ ràng là p báo cáo càng thấpαααp=0.03α0.001p-giá trị, độc giả càng hoài nghi nó sẽ có thể thuyết phục! Do đó, một lần nữa, giá trị thấp hơn có sức thuyết phục hơn.p

Thực tiễn tiêu chuẩn hiện nay là kết hợp các cách tiếp cận của Fisher và Neyman-Pearson: nếu , thì kết quả được gọi là "đáng kể" và giá trị p được [chính xác hoặc xấp xỉ] được báo cáo và sử dụng như một thước đo về tính thuyết phục (bằng cách đánh dấu nó với các ngôi sao, sử dụng các biểu thức là "rất có ý nghĩa", v.v.); nếu p > α , thì kết quả được gọi là "không đáng kể" và đó là kết quả.p<αpp>α

Điều này thường được gọi là một "phương pháp lai", và thực sự nó là lai. Một số người cho rằng sự lai tạo này là không mạch lạc; Tôi có xu hướng không đồng ý. Tại sao nó không hợp lệ để làm hai việc hợp lệ cùng một lúc?

Đọc thêm:


1
. Vì vậy, họ nói về "lập chỉ mục" hoặc "hiệu chỉnh" bằng chứng / khả năng.
Scortchi - Phục hồi Monica

Xin lỗi, tôi muốn nói chính xác hơn là, theo quan điểm này, "bằng chứng" tương đối (hoặc "hỗ trợ") cho các giá trị khác nhau mà một tham số có thể lấy là tỷ lệ của các hàm khả năng của chúng được đánh giá cho dữ liệu được quan sát. Vì vậy, trong ví dụ của Lew, một trong sáu lần tung là cùng một bằng chứng chống lại giả thuyết khống, bất kể sơ đồ lấy mẫu là nhị thức hay nhị thức âm; tuy nhiên các giá trị p khác nhau - bạn có thể nói rằng trong một sơ đồ lấy mẫu, bạn sẽ ít có khả năng tích lũy càng nhiều bằng chứng chống lại null. (Tất nhiên quyền đối với từ "bằng chứng", như với "đáng kể", ...
Scortchi - Phục hồi Monica

... chưa được thiết lập vững chắc).
Scortchi - Khôi phục Monica

Hmmm, cảm ơn rất nhiều vì đã thu hút sự chú ý của tôi đến phần này; Tôi đọc nó trước đây nhưng dường như bỏ lỡ tầm quan trọng của nó. Tôi phải nói rằng tại thời điểm này tôi bối rối bởi nó. Lew viết rằng các giá trị p không nên được "điều chỉnh" bằng cách tính đến các quy tắc dừng; nhưng tôi không thấy bất kỳ sự điều chỉnh nào trong công thức của anh ấy 5-6. Giá trị p "không điều chỉnh" sẽ là gì?
amip nói rằng Phục hồi lại

1
@Scortchi: Hừm. Tôi thực sự không hiểu tại sao một trong những giá trị p này được "điều chỉnh" và một giá trị khác thì không; Tại sao không ngược lại? Tôi hoàn toàn không bị thuyết phục bởi lập luận của Lew ở đây và tôi thậm chí không hoàn toàn hiểu nó. Nghĩ về điều đó, tôi đã tìm thấy câu hỏi của Lew từ năm 2012 về nguyên tắc khả năng và giá trị p, và đăng một câu trả lời ở đó. Vấn đề là người ta không cần các quy tắc dừng khác nhau để có các giá trị p khác nhau; người ta có thể chỉ cần xem xét các thống kê kiểm tra khác nhau. Có lẽ chúng ta có thể tiếp tục thảo luận ở đó, tôi sẽ đánh giá cao đầu vào của bạn.
amip nói rằng Phục hồi lại

9

Tôi không biết ý nghĩa của các giá trị p nhỏ hơn là "tốt hơn" hay chúng ta "tin tưởng hơn" vào chúng. Nhưng liên quan đến giá trị p như là thước đo mức độ ngạc nhiên của dữ liệu, nếu chúng ta tin rằng giả thuyết null, có vẻ đủ hợp lý; giá trị p là một hàm đơn điệu của thống kê kiểm tra bạn đã chọnđể đo lường sự khác biệt với giả thuyết khống theo hướng bạn quan tâm, hiệu chỉnh nó theo các đặc tính của nó theo một quy trình lấy mẫu có liên quan từ dân số hoặc chỉ định ngẫu nhiên các phương pháp điều trị thử nghiệm. "Ý nghĩa" đã trở thành một thuật ngữ kỹ thuật để chỉ các giá trị p 'ở trên hoặc dưới một số giá trị được chỉ định; do đó, ngay cả những người không quan tâm đến việc chỉ định các mức ý nghĩa và chấp nhận hoặc bác bỏ các giả thuyết có xu hướng tránh các cụm từ như tuân thủ quy ước "có ý nghĩa cao".

Liên quan đến sự phụ thuộc của giá trị p vào kích thước mẫu và kích thước hiệu ứng, có lẽ một số nhầm lẫn xuất hiện bởi vì có vẻ như 474 đầu trong số 1000 lần tung nên ít gây ngạc nhiên hơn 2 trên 10 đối với ai đó nghĩ rằng đồng xu là công bằng tỷ lệ mẫu chỉ chênh lệch một chút so với 50% trong trường hợp trước đây, tuy nhiên các giá trị p là như nhau. Nhưng đúng hay sai không thừa nhận bằng cấp; giá trị p đang làm những gì được hỏi về nó: thường là khoảng tin cậy cho một tham số thực sự là những gì muốn đánh giá mức độ chính xác của hiệu ứng được đo, và tầm quan trọng thực tế hoặc lý thuyết của cường độ ước tính của nó.


1
p= =0,04p= =0,000004

1

Cảm ơn bạn đã bình luận và đề nghị đọc. Tôi đã có thêm thời gian để suy ngẫm về vấn đề này và tôi tin rằng tôi đã xoay sở để cô lập các nguồn gây nhầm lẫn chính của mình.

  • Ban đầu tôi nghĩ có một sự phân đôi giữa việc xem giá trị p là thước đo của sự ngạc nhiên so với việc nói rằng đó không phải là một biện pháp tuyệt đối. Bây giờ tôi nhận ra những tuyên bố này không nhất thiết mâu thuẫn với nhau. Cái trước cho phép chúng ta ít nhiều tin tưởng vào sự cực đoan (thậm chí không giống nhau?) Của một hiệu ứng quan sát được, so với các kết quả giả thuyết khác của cùng một thí nghiệm. Trong khi điều sau chỉ cho chúng ta biết rằng giá trị p có thể được coi là có giá trị thuyết phục trong một thử nghiệm, có thể không ấn tượng chút nào trong một thử nghiệm khác, ví dụ: nếu kích thước mẫu khác nhau.

  • Việc một số lĩnh vực khoa học sử dụng một đường cơ sở khác nhau của các giá trị p mạnh, có thể là sự phản ánh sự khác biệt về kích thước mẫu chung (thiên văn học, lâm sàng, thí nghiệm tâm lý) và / hoặc cố gắng truyền đạt kích thước hiệu ứng trong p- giá trị. Nhưng sau này là một sự kết hợp không chính xác của hai.

  • Ý nghĩa là câu hỏi có / không dựa trên alpha được chọn trước khi thử nghiệm. Do đó, giá trị p có thể không đáng kể hơn giá trị khác, vì chúng nhỏ hơn hoặc lớn hơn mức ý nghĩa đã chọn. Mặt khác, giá trị p nhỏ hơn sẽ thuyết phục hơn so với giá trị lớn hơn (đối với một thử nghiệm mẫu tương tự / thí nghiệm giống hệt nhau, như đã đề cập ở điểm đầu tiên của tôi).

  • Khoảng tin cậy vốn đã truyền đạt kích thước hiệu ứng, làm cho chúng trở thành một lựa chọn tốt để bảo vệ chống lại các vấn đề được đề cập ở trên.


0

Giá trị p không thể là thước đo bất ngờ vì nó chỉ là thước đo xác suất khi null là đúng. Nếu null là đúng thì mỗi giá trị có thể có của p đều có khả năng như nhau. Người ta không thể ngạc nhiên với bất kỳ giá trị p nào trước khi quyết định từ chối null. Khi một người quyết định có hiệu ứng thì ý nghĩa của giá trị p sẽ biến mất. Người ta chỉ báo cáo nó như là một liên kết trong một chuỗi quy nạp tương đối yếu để biện minh cho sự từ chối, hoặc không, của null. Nhưng nếu nó bị từ chối thì nó thực sự không còn ý nghĩa gì nữa.


+1 cho thực tế "khi null là đúng thì mọi giá trị p đều có khả năng như nhau", tuy nhiên, tôi nghĩ rằng điều này chỉ giữ cho các biến ngẫu nhiên liên tục?

Lưu ý rằng tôi đã nói, mọi giá trị "có thể" của p đều có khả năng như nhau. Vì vậy, điều này đúng với các biến kín đáo hoặc liên tục. Với các biến kín đáo, số lượng giá trị có thể thấp hơn.
John

H0

Tôi tin rằng câu trả lời hàng đầu chứng minh rằng đây không phải là vấn đề. Lý do phân phối trông không đồng nhất là vì các giá trị p có thể có khoảng cách không đều nhau. Glenn thậm chí gọi nó là đồng phục gần như. Tôi cho rằng có thể với một số thử nghiệm rất thưa thớt về dữ liệu nhị thức với Ns nhỏ thì có lẽ xác suất của các giá trị p cụ thể là không bằng nhau nhưng nếu bạn xem xét xác suất của giá trị p trong một phạm vi nhất định thì nó sẽ gần với thống nhất hơn.
Giăng

1
H0:μ= =0,5p= =0,000000000004H0:μ= =0,45p= =0,0000000001μ= =0,45
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.