Tại sao 0,05 <p <0,95 kết quả được gọi là dương tính giả?


9

Chỉnh sửa: Cơ sở của câu hỏi của tôi là thiếu sót, và tôi cần dành một chút thời gian để tìm hiểu xem nó thậm chí có thể được thực hiện để có ý nghĩa.

Chỉnh sửa 2: Làm rõ rằng tôi nhận ra rằng giá trị p không phải là thước đo trực tiếp xác suất của giả thuyết khống, nhưng tôi cho rằng giá trị p càng gần 1 thì càng có nhiều khả năng giả thuyết đó có đã được chọn để thử nghiệm thử nghiệm với giả thuyết null tương ứng là đúng, trong khi giá trị p càng gần 0 thì càng có nhiều giả thuyết được chọn để thử nghiệm thử nghiệm với giả thuyết null tương ứng là sai. Tôi không thể thấy điều này sai như thế nào trừ khi tập hợp tất cả các giả thuyết (hoặc tất cả các giả thuyết được chọn cho các thí nghiệm) bằng cách nào đó là bệnh hoạn.

Chỉnh sửa 3: Tôi nghĩ rằng tôi vẫn không sử dụng thuật ngữ rõ ràng để đặt câu hỏi của mình. Khi số xổ số được đọc ra, và bạn khớp chúng với vé của bạn từng cái một, một cái gì đó thay đổi. Xác suất bạn giành được không thay đổi, nhưng xác suất bạn có thể tắt radio thì không. Có một sự thay đổi tương tự xảy ra khi các thí nghiệm được thực hiện, nhưng tôi có cảm giác rằng thuật ngữ tôi đang sử dụng - "giá trị p thay đổi khả năng giả thuyết thực sự đã được chọn" - không phải là thuật ngữ chính xác.

Chỉnh sửa 4: Tôi đã nhận được hai câu trả lời chi tiết và thông tin đáng kinh ngạc có chứa nhiều thông tin để tôi giải quyết. Tôi sẽ bỏ phiếu cho cả hai ngay bây giờ và sau đó quay lại để chấp nhận một khi tôi đã học đủ từ cả hai câu trả lời để biết rằng họ đã trả lời hoặc vô hiệu hóa câu hỏi của tôi. Câu hỏi này đã mở ra một lon giun lớn hơn nhiều so với loại mà tôi dự kiến ​​sẽ ăn.

Trong các bài báo tôi đã đọc, tôi đã thấy kết quả với p> 0,05 sau khi xác thực được gọi là "dương tính giả". Tuy nhiên, vẫn chưa chắc là tôi đã chọn một giả thuyết để kiểm tra với giả thuyết null tương ứng sai khi dữ liệu thực nghiệm có ap <0,50 thấp nhưng> 0,05 và không phải là giả thuyết null và giả thuyết nghiên cứu không chắc chắn về mặt thống kê / không đáng kể (được đưa ra mức cắt đứt có ý nghĩa thống kê thông thường) ở bất kỳ đâu giữa 0,05 <p < 0,95 bất kể nghịch đảo của p <0,05 là gì, có phải là sự bất đối xứng được chỉ ra trong liên kết @ NickStauner không?

Hãy gọi số A đó và xác định nó là giá trị p nói lên điều tương tự về khả năng bạn đã chọn một giả thuyết null thực sự cho thí nghiệm / phân tích của bạn rằng giá trị p 0,05 nói về khả năng bạn ' đã chọn một giả thuyết không null thực sự cho thí nghiệm / phân tích của bạn. Không 0,05 <p <A chỉ nói: "Cỡ mẫu của bạn không đủ lớn để trả lời câu hỏi và bạn sẽ không thể đánh giá tầm quan trọng của ứng dụng / thế giới thực cho đến khi bạn lấy mẫu lớn hơn và lấy số liệu thống kê của bạn tầm quan trọng được sắp xếp "?

Nói cách khác, không nên gọi một kết quả chắc chắn là sai (thay vì chỉ đơn giản là không được hỗ trợ) nếu và chỉ khi p> A?

Điều này có vẻ đơn giản với tôi, nhưng việc sử dụng rộng rãi như vậy cho tôi biết rằng tôi có thể sai. Tôi là:

a) giải thích sai về toán học,
b) phàn nàn về một quy ước vô hại nếu không chính xác,
c) hoàn toàn chính xác, hay
d) khác?

Tôi nhận ra rằng điều này nghe giống như một lời kêu gọi ý kiến, nhưng đây có vẻ như là một câu hỏi với câu trả lời đúng về mặt toán học (một khi đã cắt bỏ ý nghĩa) rằng tôi hoặc (gần như) mọi người khác đều hiểu sai.


1
Chào David. Đây là bài báo khiến tôi suy nghĩ về nó: link
Andrew Klaassen

2
Thay vào đó, trong dòng đầu tiên của bạn không có nghĩa là bạn viết "... kết quả ban đầu với nhưng sau đó với sau khi xác thực ..."? Kết quả có lớn hơn ngưỡng nếu không được gọi là kết quả âm . Ngay cả sau khi chỉnh sửa, việc mô tả cách giải thích của bạn là không chính xác, vì vậy tôi muốn đề nghị bạn dành một chút thời gian để xem lại một số bài đăng của chúng tôi về diễn giải giá trị p và xem xét lại những gì bạn muốn hỏi. p 0,05 p α pp<0.05p0.05pαp
whuber

1
Bạn có thể xóa câu hỏi của mình nếu muốn, nhưng vì bạn đã nhận được hai câu hỏi (ôi, hãy làm cho nó 3), một câu trả lời nâng cao và sắp nhận được một câu trả lời khác từ "của bạn thật sự", tôi yêu cầu bạn rời khỏi nó tích cực và làm việc với nó khi bạn thấy phù hợp, mặc dù tôi tôn trọng quyền của bạn để làm như bạn muốn. Chúc mừng!
Nick Stauner

1
Tôi đồng ý với @Nick, Andrew: bạn có một câu hỏi chung và khiêu khích ở đây đã thu hút một số suy nghĩ và sự chú ý, vì vậy chúng tôi sẽ rất biết ơn nếu bạn giữ nó được đăng và, nếu bạn có thể, hãy tinh chỉnh nó một chút để tập trung vào vấn đề chính liên quan đến cách giải thích giá trị p. Phần tiểu thuyết, từ những gì tôi có thể nói, là gợi ý rằng tiêu chí từ chối nên dựa trên giá trị p lớn. Nhận xét của bạn: một kết quả dương tính giả xảy ra khi xét nghiệm có ý nghĩa nhưng được biết rằng giả thuyết null là đúng.
whuber

1
@whuber: Trọng tâm nền hấp dẫn hơn đối với tôi là kết quả nào cho thấy một thử nghiệm tiếp theo với kích thước mẫu lớn hơn có khả năng mang lại hiệu quả. Cho đến khi trả lời, có vẻ như tôi cần hỏi liệu giá trị p thậm chí có thể liên quan đến câu hỏi đó hay không. Re biết rằng giả thuyết null là đúng như thước đo của một dương tính giả: Khi nào người ta sẽ nói rằng một giả thuyết null là đúng bên ngoài tình huống p> (1 - α)?
Andrew Klaassen

Câu trả lời:


15

Câu hỏi của bạn dựa trên một tiền đề sai:

không phải là giả thuyết null vẫn có nhiều khả năng hơn là không sai khi p <0,50

Giá trị p không phải là xác suất mà giả thuyết null là đúng. Ví dụ, nếu bạn lấy một nghìn trường hợp giả thuyết null là đúng, một nửa trong số đó sẽ có p < .5. Một nửa tất cả sẽ là null.

Thật vậy, ý tưởng p > .95có nghĩa là giả thuyết null là "có lẽ đúng" cũng gây hiểu nhầm không kém. Nếu giả thuyết null là đúng, xác suất p > .95hoàn toàn giống với xác suất đó p < .05.

ETA: Chỉnh sửa của bạn làm cho vấn đề rõ ràng hơn là gì: bạn vẫn có vấn đề ở trên (rằng bạn đang coi giá trị p là xác suất sau, khi không phải vậy). Điều quan trọng cần lưu ý rằng đây không phải là một sự phân biệt triết học tinh tế (như tôi nghĩ bạn đang ám chỉ cuộc thảo luận của bạn về vé số): nó có ý nghĩa thực tiễn to lớn đối với bất kỳ sự giải thích nào về giá trị p.

Nhưng có một sự chuyển đổi bạn có thể thực hiện trên p-giá trị mà sẽ giúp bạn có được những gì bạn đang tìm kiếm, và nó được gọi là tỷ lệ phát hiện sai địa phương. (Như được mô tả bởi bài báo hay này , nó thường tương đương với "xác suất lỗi sau", vì vậy hãy nghĩ về nó theo cách đó nếu bạn muốn).

Hãy làm việc với một ví dụ cụ thể. Giả sử bạn đang thực hiện kiểm tra t để xác định xem một mẫu gồm 10 số (từ phân phối bình thường) có giá trị trung bình bằng 0 (kiểm tra t một mẫu, hai mặt). Đầu tiên, chúng ta hãy xem những gì vẻ phân phối p-giá trị như khi giá trị trung bình thực sự không, với một mô phỏng R ngắn:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

nhập mô tả hình ảnh ở đây

Như chúng ta có thể thấy, giá trị p null có phân phối đồng đều (có khả năng như nhau tại tất cả các điểm trong khoảng từ 0 đến 1). Đây là điều kiện cần thiết của giá trị p: thực sự, đó chính xác là ý nghĩa của giá trị p! (Với giá trị null là đúng, có 5% cơ hội nó nhỏ hơn 0,05, 10% cơ hội nó nhỏ hơn .1 ...)

Bây giờ hãy xem xét các giả thuyết thay thế - các trường hợp trong đó null là sai. Bây giờ, điều này phức tạp hơn một chút: khi null là sai, "nó sai" như thế nào? Giá trị trung bình của mẫu không phải là 0, nhưng có phải là 0,5 không? 1? 10? Liệu nó ngẫu nhiên thay đổi, đôi khi nhỏ và đôi khi lớn? Để đơn giản, hãy nói rằng nó luôn luôn bằng 0,5 (nhưng hãy nhớ rằng sự phức tạp đó, nó sẽ trở nên quan trọng sau này):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

nhập mô tả hình ảnh ở đây

Lưu ý rằng phân phối bây giờ không đồng nhất: nó được dịch chuyển về 0! Trong bình luận của bạn, bạn đề cập đến một "sự bất cân xứng" cung cấp thông tin: đây là sự bất cân xứng.

Vì vậy, hãy tưởng tượng bạn đã biết cả hai bản phân phối đó, nhưng bạn đang làm việc với một thử nghiệm mới và bạn cũng có một ưu tiên rằng có 50% cơ hội là không và 50% là thay thế. Bạn nhận được giá trị p là 0,7. Làm thế nào bạn có thể nhận được từ đó và giá trị p đến một xác suất?

Những gì bạn nên làm là so sánh mật độ :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

Và nhìn vào giá trị p của bạn:

abline(v=.7, col="red", lty=2)

nhập mô tả hình ảnh ở đây

Tỷ lệ đó giữa mật độ null và mật độ thay thế có thể được sử dụng để tính tỷ lệ phát hiện sai cục bộ : null càng cao so với mật độ thay thế, FDR cục bộ càng cao. Đó là xác suất mà giả thuyết là không (về mặt kỹ thuật nó có cách giải thích thường xuyên chặt chẽ hơn, nhưng chúng ta sẽ giữ nó đơn giản ở đây). Nếu giá trị đó rất cao, thì bạn có thể đưa ra cách giải thích "giả thuyết null gần như chắc chắn là đúng". Thật vậy, bạn có thể tạo ngưỡng 0,05 và 0,95 của FDR cục bộ: điều này sẽ có các thuộc tính bạn đang tìm kiếm. (Và vì FDR cục bộ tăng đơn điệu với giá trị p, ít nhất nếu bạn làm đúng, chúng sẽ chuyển sang một số ngưỡng A và B nơi bạn có thể nói "

Bây giờ, tôi đã có thể nghe bạn hỏi "vậy tại sao chúng ta không sử dụng nó thay vì giá trị p?" Hai lý do:

  1. Bạn cần quyết định xác suất trước rằng bài kiểm tra là null
  2. Bạn cần biết mật độ dưới sự thay thế. Điều này rất khó đoán, bởi vì bạn cần xác định kích thước và phương sai hiệu ứng của bạn thể lớn đến mức nào, và mức độ thường xuyên của chúng như vậy!

Bạn không cần một trong hai cách để kiểm tra giá trị p và kiểm tra giá trị p vẫn cho phép bạn tránh các kết quả dương tính giả (đó là mục đích chính của nó). Bây giờ, nó tốt để ước tính cả những giá trị trong nhiều thử nghiệm giả thuyết, khi bạn có hàng ngàn p-giá trị (chẳng hạn như một bài kiểm tra cho mỗi người trong số hàng ngàn gen: xem bài viết này hoặc giấy này chẳng hạn), nhưng không phải khi bạn Tôi đang làm một bài kiểm tra duy nhất.

Cuối cùng, bạn có thể nói "Không phải bài báo vẫn sai khi nói sao chép dẫn đến giá trị p ở trên 0,05 có nhất thiết là dương tính giả không?" Chà, trong khi sự thật là việc lấy một giá trị p là 0,04 và một giá trị p khác là 0,06 không thực sự có nghĩa là kết quả ban đầu là sai, trong thực tế, đó là một số liệu hợp lý để chọn. Nhưng trong mọi trường hợp, bạn có thể vui mừng khi biết người khác nghi ngờ về điều đó! Bài báo mà bạn đề cập có phần gây tranh cãi trong thống kê: bài báo này sử dụng một phương pháp khác và đi đến một kết luận rất khác về giá trị p từ nghiên cứu y học, và sau đó nghiên cứu đó đã bị một số người Bayes nổi tiếng chỉ trích (và làm tròn và đi ...). Vì vậy, trong khi câu hỏi của bạn dựa trên một số giả định sai lầm về giá trị p, tôi nghĩ rằng nó kiểm tra một giả định thú vị trên một phần của bài báo mà bạn trích dẫn.


Chào David. Điểm công bằng. Tôi sẽ làm việc lại với câu hỏi của mình để không hiểu sai phần đó, và xem liệu tôi có còn gặp vấn đề gì không.
Andrew Klaassen

@David_Robinson: Sẽ đúng khi sử dụng giá trị p làm tỷ lệ cảnh báo sai trong quy tắc Bayes và có thể đưa ra kết luận về xác suất nghiên cứu và / hoặc giả thuyết null từ đó? Đặt mức ưu tiên 50% và chơi nhanh và lỏng từ đó? :-)
Andrew Klaassen

1
Aye, hấp dẫn! Bạn có thể làm việc với câu trả lời của bạn? Nhưng có sự bất cân xứng giữa cách p hành xử khi null là đúng so với khi nó sai ~ phải ~ cung cấp một số thông tin về khả năng giả thuyết null là đúng dựa trên giá trị p được trích xuất từ ​​dữ liệu. Nếu một giả thuyết null thực sự tạo ra các giá trị p được phân phối đồng đều và một giả thuyết không null thực sự tạo ra các giá trị p bị lệch về 0, hãy rút ra ap = 0,01 đá cẩm thạch ~ phải ~ cho rằng bạn có nhiều khả năng đã chọn không - toàn bộ bình thí nghiệm, ngay cả khi xác suất không thay đổi bằng cách thực hiện thí nghiệm.
Andrew Klaassen

1
@AndrewKlaassen: Bạn có thể quan tâm đến khái niệm "tỷ lệ phát hiện sai cục bộ". Đó là một người thường xuyên tương đương với xác suất sau của Bayes rằng null là đúng. Nó đòi hỏi hai điều: a) Xác suất trước rằng null là đúng (đôi khi được gọi là pi0) và b) ước tính mật độ cho giả thuyết thay thế. Trong thử nghiệm nhiều giả thuyết (nếu bạn có hàng ngàn giá trị p), có thể ước tính cả hai giá trị này bằng cách xem xét mật độ. Nếu tôi có thêm một chút thời gian, tôi có thể xây dựng một lời giải thích sâu hơn vào câu trả lời của mình.
David Robinson

1
@AndrewKlaassen: Xem bản chỉnh sửa của tôi, nơi tôi giải thích chi tiết về FDR cục bộ, tại sao đó là cách tính giá trị "A" của bạn (mặc dù bạn có thể muốn thay đổi 0,05 trong khi bạn tính A), và tại sao nó hiếm khi được sử dụng . Dù sao, để làm rõ một điểm không thực sự phù hợp với câu trả lời: ví dụ của bạn với vé số hiểu sai điểm mà tôi và những người khác đang thực hiện. Chúng tôi không bị treo lên với ý tưởng "làm xác suất thay đổi với thông tin mới" (cả người Bayes và người thường xuyên có cách giải thích của họ về điều đó): vấn đề là bạn không thay đổi chúng đúng cách!
David Robinson

10

Di chuột qua bất kỳ nào ( là thẻ giả) xuất hiện bên dưới để xem đoạn trích ngắn về wiki của nó. Xin vui lòng tha thứ cho sự gián đoạn của khoảng cách dòng. Tôi thấy nó đáng giá vì các trích đoạn thẻ có thể giúp người đọc kiểm tra sự hiểu biết về biệt ngữ trong khi đọc qua. Một số trích đoạn này cũng có thể xứng đáng được chỉnh sửa, vì vậy chúng cũng xứng đáng là một nhà báo, IMHO.

p < 0,05 p > 0,05p>.05 thường ngụ ý người ta không nên từ chối . Ngược lại, lỗi hoặc dương xảy ra khi người ta từ chối null do lỗi hoặc một số sự cố bất thường khác tạo ra một không thể xảy ra (thường là với ) được lấy mẫu ngẫu nhiên từ trong đó null là đúng. Một kết quả với được gọi là dương tính giả dường như phản ánh sự hiểu lầm về giả thuyết nullp<.05p>.05ing (NHST). Những hiểu lầm không phải là hiếm trong các tài liệu nghiên cứu được công bố, vì NHST nổi tiếng là phản trực giác. Đây là một trong những tiếng kêu la của cuộc xâm lược (mà tôi ủng hộ, nhưng chưa làm theo ... chưa). Tôi đã làm việc với những ấn tượng sai lầm như những bản thân mình cho đến gần đây, vì vậy tôi thông cảm một cách chân thành nhất.

@DavidRobinson là đúng khi quan sát rằng không phải là xác suất của null là sai trong NHST . Đây là (ít nhất) một trong những quan niệm sai lầm "bẩn thỉu" của Goodman (2008) về giá trị (xem thêm Hurlbert & Lombardi, 2009 ) . Trong NHST, là mà người ta sẽ vẽ bất kỳ mẫu ngẫu nhiên nào trong tương lai bằng cùng một phương tiện sẽ thể hiện mối quan hệ hoặc sự khác biệt (hoặc bất kỳ nàop p p ppp pđang được thử nghiệm với null, nếu các loại kích thước hiệu ứng khác tồn tại ...?) ít nhất khác với giả thuyết null như (các) mẫu từ cùng một quần thể người ta đã thử nghiệm để đạt đến một giá trị nhất định , nếu null là đúng. Nghĩa là, là xác suất lấy được một mẫu giống như của bạn với giá trị null ; nó không phản ánh xác suất của null - ít nhất, không trực tiếp. Ngược lại, các phương pháp Bayes tự hào về việc xây dựng các phân tích thống kê của họ, tập trung vào việc ước tính bằng chứng cho hoặc chống lại một lý thuyết về hiệu ứng được cung cấp dữ liệu , mà họ cho rằng là một cách tiếp cận trực quan hơn ( Wagenmakers, 2007pp) , trong số những lợi thế khác, và đặt ra những nhược điểm gây tranh cãi. (Công bằng mà nói, hãy xem " Nhược điểm của phân tích Bayes là gì? " Bạn cũng đã bình luận để trích dẫn các bài báo có thể đưa ra một số câu trả lời hay ở đó: Moyé, 2008; Hurlbert & Lombardi, 2009. )

Có thể cho rằng, giả thuyết null như đã nêu theo nghĩa đen thường có nhiều khả năng hơn là không sai, bởi vì các giả thuyết null là phổ biến nhất, theo nghĩa đen là các giả thuyết về hiệu ứng bằng không . (Đối với một số ví dụ phản biện hữu ích, hãy xem câu trả lời cho: " Các tập dữ liệu lớn có phù hợp để kiểm tra giả thuyết không? ") Các vấn đề triết học như hiệu ứng cánh bướm đe dọa của bất kỳ giả thuyết nào; do đó null là hữu ích nhất nói chung như là một cơ sở so sánh cho một giả thuyết thay thế của một số hiệu ứng khác không. Một giả thuyết thay thế như vậy có thể vẫn hợp lý hơn null sau khi dữ liệu được thu thập sẽ không thể thực hiện được nếu null là đúng. Do đó, các nhà nghiên cứu thường suy luận hỗ trợ cho một giả thuyết thay thế từ bằng chứng chống lại null, nhưng đó không phải là định lượng trực tiếp ( Wagenmakers, 2007 ) .

Như bạn nghi ngờ, là một chức năng của , cũng như kích thước hiệu ứng và tính nhất quán. (Xem @ câu trả lời gung của cho câu hỏi gần đây, " Làm thế nào có thể một t-test có ý nghĩa về mặt thống kê nếu chênh lệch trung bình là gần như 0? ") Những câu hỏi chúng ta thường có ý định hỏi về dữ liệu của chúng tôi là, "tác động của là gì xtrên y? " Vì nhiều lý do (bao gồm IMO, các chương trình giáo dục bị hiểu sai và thiếu sót trong các số liệu thống kê, đặc biệt là được dạy bởi những người không thống kê), chúng tôi thường thấy mình thay vì hỏi theo nghĩa đen một cách lỏng lẻo, "Xác suất lấy mẫu dữ liệu như của tôi là ngẫu nhiên từ một dân số xkhông ảnh hưởngy? "Đây là sự khác biệt cơ bản giữa ước tính kích thước hiệu ứng và kiểm tra mức độ quan trọng. Một giá trị chỉ trả lời trực tiếp câu hỏi sau, nhưng một số chuyên gia (@rpierce có thể cung cấp cho bạn một danh sách tốt hơn tôi; tha thứ cho tôi vì đã kéo bạn vào đây !) đã lập luận rằng các nhà nghiên cứu đọc sai như một câu trả lời cho câu hỏi trước đây về kích thước hiệu ứng quá thường xuyên; tôi sợ tôi phải đồng ý.ppp

Để trả lời trực tiếp hơn về ý nghĩa của , đó là xác suất lấy mẫu dữ liệu ngẫu nhiên từ một quần thể có giá trị null là đúng, nhưng điều đó thể hiện mối quan hệ hoặc sự khác biệt khác với giá trị mà null mô tả theo nghĩa đen ít nhất là một biên độ rộng và nhất quán như dữ liệu của bạn ... <hít vào> ... nằm trong khoảng 5 59595%. Người ta chắc chắn có thể lập luận rằng đây là hậu quả của kích thước mẫu, bởi vì việc tăng kích thước mẫu sẽ cải thiện khả năng phát hiện kích thước hiệu ứng nhỏ và không nhất quán của một người và phân biệt chúng với hiệu ứng không có nghĩa là không có độ tin cậy vượt quá 5%. Tuy nhiên, kích thước hiệu ứng nhỏ và không nhất quán có thể có hoặc không có ý nghĩa thực tế ( có ý nghĩa thống kê.05<p<.95- một tá bẩn khác của Goodman (2008); điều này phụ thuộc nhiều vào ý nghĩa của dữ liệu, trong đó ý nghĩa thống kê chỉ liên quan đến chính nó ở một mức độ hạn chế. Xem câu trả lời của tôi cho ở trên .

Sẽ không đúng nếu gọi một kết quả chắc chắn là sai (thay vì chỉ đơn giản là không được hỗ trợ) nếu ... p> 0.95?

Kể từ khi dữ liệu nên thường đại diện cho những quan sát thực nghiệm thực tế, họ không phải là sai lầm; chỉ suy luận về họ nên đối mặt với rủi ro này, lý tưởng. (Tất nhiên, lỗi đo lường cũng xảy ra, nhưng vấn đề đó nằm ngoài phạm vi của câu trả lời này, vì vậy ngoài việc đề cập đến nó ở đây, tôi sẽ để nó một mình.) Một số rủi ro luôn tồn tại khi đưa ra suy luận tích cực sai về null là ít hữu ích so với giả thuyết thay thế, ít nhất là trừ khi người suy luận biết null là đúng. Chỉ trong hoàn cảnh khá khó hiểu về kiến ​​thức mà null hoàn toàn đúng theo nghĩa đen thì một suy luận ủng hộ một giả thuyết thay thế chắc chắn là sai ... ít nhất là theo như tôi có thể tưởng tượng vào lúc này.

Rõ ràng, việc sử dụng rộng rãi hoặc quy ước không phải là cơ quan tốt nhất về hiệu lực epistemia hoặc suy luận. Ngay cả các tài nguyên được công bố là dễ đọc; xem ví dụ Fallacy trong định nghĩa giá trị p . Tài liệu tham khảo của bạn ( Hurlbert & Lombardi, 2009 ) cũng cung cấp một số giải thích thú vị về nguyên tắc này (trang 322):

StatSoft (2007) tự hào trên trang web của họ rằng hướng dẫn trực tuyến của họ là tài nguyên internet duy nhất về số liệu thống kê được đề xuất bởi Encyclopedia Brittanica. Chưa bao giờ nó lại quan trọng đến vậy với 'Cơ quan ủy thác', như nhãn dán bội nói. [URL bị hỏng được chuyển đổi thành văn bản siêu liên kết.]

Một trường hợp khác: cụm từ này trong một bài báo gần đây của Nature News ( Nuzzo, 2014 ) : "Giá trị P, một chỉ số chung cho sức mạnh của bằng chứng ..." Xem Wagenmakers ' (2007, trang 787) "Vấn đề 3: Các giá trị không định lượng bằng chứng thống kê "... Tuy nhiên, @MichaelLew ( Lew, 2013 ) không đồng ý theo cách bạn có thể thấy hữu ích: anh ta sử dụng giá trị để lập chỉ mục các hàm khả năng. Tuy nhiên, nhiều như những nguồn được công bố này mâu thuẫn với nhau, ít nhất một nguồn phải sai! (Ở một mức độ nào đó, tôi nghĩ ...) Tất nhiên, điều này không tệ như "không đáng tin" mỗi se.pppTôi hy vọng tôi có thể dỗ Michael vào đây bằng cách gắn thẻ anh ấy như tôi có (nhưng tôi không chắc chắn thẻ người dùng gửi thông báo khi được chỉnh sửa - Tôi không nghĩ bạn trong OP đã làm). Anh ta có thể là người duy nhất có thể cứu Nuzzo - ngay cả chính Thiên nhiên ! Giúp chúng tôi Obi-Wan! (Và tha thứ cho tôi nếu câu trả lời của tôi ở đây chứng tỏ rằng tôi vẫn không hiểu được ý nghĩa của công việc của bạn, mà tôi chắc chắn rằng tôi có trong mọi trường hợp ...) BTW, Nuzzo cũng đưa ra một số biện pháp tự vệ và từ chối hấp dẫn "Vấn đề 3" của Wagenmaakers: xem hình "Nguyên nhân có thể" của Nuzzo và các trích dẫn hỗ trợ ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 ) . Đây chỉ có thể chứa câu trả lời bạn '

Re: câu hỏi trắc nghiệm của bạn, tôi chọn d. Bạn có thể đã hiểu sai một số khái niệm ở đây, nhưng bạn chắc chắn không cô đơn nếu vậy, và tôi sẽ để lại sự phán xét cho bạn, vì chỉ có bạn biết những gì bạn thực sự tin. Giải thích sai ngụ ý một số lượng chắc chắn, trong khi đặt câu hỏi ngụ ý ngược lại, và sự thúc đẩy để đặt câu hỏi khi không chắc chắn là khá đáng khen ngợi và không phổ biến ở khắp mọi nơi. Vấn đề bản chất con người này làm cho tính không chính xác của các công ước của chúng ta đáng buồn là vô hại, và đáng bị khiếu nại như những điều được đề cập ở đây. (Cảm ơn một phần cho bạn!) Tuy nhiên, đề xuất của bạn cũng không hoàn toàn chính xác.

Một số thảo luận thú vị về các vấn đề liên quan đến giá trị mà tôi đã tham gia xuất hiện trong câu hỏi này: Điều chỉnh các quan điểm cố thủ của các giá trị p . Câu trả lời của tôi liệt kê một vài tài liệu tham khảo mà bạn có thể thấy hữu ích để đọc thêm về các vấn đề diễn giải và giải pháp thay thế cho giá trị . Được cảnh báo trước: Tôi vẫn chưa tự mình chạm đáy hố thỏ đặc biệt này , nhưng ít nhất tôi có thể nói với bạn rằng nó rất sâu . Tôi vẫn đang tự tìm hiểu về nó (tôi nghi ngờ tôi sẽ viết từ góc nhìn Bayes hơn [sửa]: hoặc có thể là viễn cảnh NFSA! Hurlbert & Lombardi, 2009 )ppp, Tôi là người có thẩm quyền yếu nhất, và tôi hoan nghênh mọi sửa đổi hoặc công phu mà người khác có thể đưa ra cho những gì tôi đã nói ở đây. Tất cả những gì tôi có thể nói trong kết luận là có lẽ có một câu trả lời đúng về mặt toán học, và có lẽ hầu hết mọi người đều hiểu sai. Câu trả lời đúng chắc chắn không đến dễ dàng, vì các tài liệu tham khảo sau đây chứng minh ...

PS Như được yêu cầu (loại ... Tôi thừa nhận tôi thực sự chỉ giải quyết vấn đề này thay vì làm việc với nó), câu hỏi này là một tài liệu tham khảo tốt hơn cho phân phối đôi khi của được đưa ra null: " Tại sao giá trị p thống nhất phân phối theo giả thuyết khống ? "Quan tâm đặc biệt là những bình luận của @ whuber, đưa ra một lớp ngoại lệ. Như một phần nào đó đúng với toàn bộ cuộc thảo luận, tôi không tuân theo các lập luận 100%, chứ đừng nói đến ý nghĩa của chúng, vì vậy tôi không chắc những vấn đề với tính đồng nhất phân phối thực sự là đặc biệt. Nguyên nhân nữa cho sự nhầm lẫn thống kê sâu rộng, tôi sợ ...ppp

Người giới thiệu

- Người tốt, SN (1992). Một nhận xét về sao chép, P ‐values ​​và bằng chứng. Thống kê trong Y học, 11 (7), 875 trừ879.
- Người tốt, SN (2001). Of P -values ​​và Bayes: Một đề xuất khiêm tốn. Dịch tễ học, 12 (3), 295 bóng297. Lấy từ http://swfsc.noaa.gov/uploadedFiles/Divutions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Người tốt, S. (2008). Một tá bẩn: Mười hai quan niệm sai lầm P -value. Hội thảo chuyên ngành huyết học, 45 (3), 135 chuyến140. Lấy từ http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). Không sao chép các nghiên cứu về hiệp hội: Thất bại giả giả có thể sao chép? Di truyền học trong y học, 9 (6), 325 bóng31. Lấy từ http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH, & Lombardi, CM (2009). Sự sụp đổ cuối cùng của khung lý thuyết quyết định của Neyman hạng Pearson và sự trỗi dậy của tân sinh viên. Annales Zoologici Fennici, 46 (5), 311 Từ349. Lấy từ http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Luân, MJ (2013). To P or not to P: Về bản chất chứng minh của các giá trị P và vị trí của chúng trong suy luận khoa học. arXiv: 1311.0081 [stat.ME]. Lấy ra từhttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayes trong các thử nghiệm lâm sàng: Ngủ tại công tắc. Thống kê trong Y học, 27 (4), 469 Bóng482.
- Nuzzo, R. (2014, ngày 12 tháng 2). Phương pháp khoa học: Lỗi thống kê. Tin tức thiên nhiên, 506 (7487). Lấy từ http://www.nature.com/news/scientific-method-statistic-errors-1.14700 .
- Wagenmakers, EJ (2007). Một giải pháp thực tế cho các vấn đề phổ biến của các giá trị p . Bản tin & Đánh giá tâm lý, 14 (5), 779 Từ804. Lấy từ http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .


Tôi vẫn đang nghiên cứu câu trả lời rất kỹ lưỡng của bạn (cảm ơn vì điều đó), nhưng việc bạn đề cập đến "cuộc xâm lược Bayes" khiến tôi nghĩ đến "Bayesian trong các thử nghiệm lâm sàng: Ngủ tại Switch", được in lại như Chương 12 ở đây , mà tôi ' m cũng từ từ quấn đầu tôi.
Andrew Klaassen

"Bạn đã đạt đến một trang không có sẵn để xem hoặc đạt đến giới hạn xem của bạn cho cuốn sách này" ...?
Nick Stauner

1
Thật không may. Nếu bạn có quyền truy cập tạp chí, bạn cũng có thể tìm thấy nó ở đây . Một tìm kiếm cho cụm từ "bayesian hiện đang phá vỡ các rào cản truyền thống trong các thử nghiệm lâm sàng" cũng có thể đưa bạn đến đó.
Andrew Klaassen

1
Sự sụp đổ cuối cùng của khung lý thuyết quyết định Neyman-Pearson và sự trỗi dậy của neoFisherian cũng chứa một lịch sử giải trí của các giá trị p và tấn công vào việc sử dụng phân tích Bayes trong nghiên cứu. Tôi không thể nói rằng tôi hiểu nó đủ tốt để đánh giá nó, nhưng tôi cho rằng ít nhất là nhận thức được các sửa đổi cho sự nhiệt tình hiện tại.
Andrew Klaassen

1
@NickStauner Chỉ cần tìm thấy cuộc thảo luận này. Không cần thiết phải có ít nhất một tài khoản bị sai nếu có một bộ tài khoản không đồng ý. Họ có thể dựa trên các mô hình khác nhau. [Nếu bạn là trò chơi, bạn nên đọc cuốn sách Bản chất của bằng chứng thống kê (2005) của Bill Thompson.] Tuy nhiên, tài khoản của tôi chắc chắn là đúng ;-) (Mặc dù chỉ mới sáng nay bị một tạp chí từ chối một lần nữa.) bất cẩn và có khả năng gây hiểu lầm.
Michael Lew
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.