Về giá trị p, tại sao 1% và 5%? Tại sao không phải là 6% hay 10%?

80

Về giá trị p , tôi tự hỏi tại sao % và % dường như là tiêu chuẩn vàng cho . Tại sao không phải là các giá trị khác, như % hoặc %? $1$ $5$ "statistical significance" $6$ $10$

Có một lý do toán học cơ bản cho điều này, hay đây chỉ là một quy ước được tổ chức rộng rãi?

— Contango
nguồn

2

Nếu mọi người có 12 ngón thì sao? Chúng tôi sẽ tính cơ sở 12, không phải cơ sở 10. Và điều đó có nghĩa là "1%" sẽ là 1/144 hoặc 0,0069444444.

— Contango

77

Nếu bạn kiểm tra các tài liệu tham khảo bên dưới, bạn sẽ tìm thấy khá nhiều biến thể trong nền, mặc dù có một số yếu tố phổ biến.

Những con số đó ít nhất một phần dựa trên một số ý kiến từ Fisher, nơi ông nói

(trong khi thảo luận về mức 1/20)

Thật thuận tiện khi lấy điểm này làm giới hạn trong việc đánh giá xem một sai lệch có được coi là đáng kể hay không. Do đó, độ lệch vượt quá hai lần độ lệch chuẩn được coi là chính thức

$\quad$ Fisher, RA (1925) Phương pháp thống kê cho công nhân nghiên cứu , tr. 47

Mặt khác, đôi khi anh ta rộng hơn:

Nếu một trong hai mươi dường như không đủ tỷ lệ cược cao, chúng tôi có thể, nếu chúng tôi thích nó, hãy vẽ đường thẳng ở một phần năm mươi (2 phần trăm điểm), hoặc một phần trăm (1 phần trăm điểm). Cá nhân, người viết thích đặt tiêu chuẩn có ý nghĩa thấp ở mức 5% và bỏ qua hoàn toàn tất cả các kết quả không đạt được mức này. Một thực tế khoa học nên được coi là được thiết lập bằng thực nghiệm chỉ khi một thí nghiệm được thiết kế phù hợp hiếm khi không đưa ra mức ý nghĩa này.

$\quad$ Fisher, RA (1926) Việc sắp xếp các thí nghiệm hiện trường . Tạp chí của Bộ Nông nghiệp, tr. 504
$\quad$

Fisher cũng đã sử dụng 5% cho một trong các bảng của cuốn sách của mình - nhưng hầu hết các bảng khác của ông có mức độ ý nghĩa lớn hơn

Một số ý kiến của ông đã đề xuất các cách tiếp cận ít nhiều nghiêm ngặt hơn (tức là mức alpha thấp hơn hoặc cao hơn) trong các tình huống khác nhau.

Kiểu thảo luận ở trên đã dẫn đến xu hướng tạo ra các bảng tập trung mức ý nghĩa 5% và 1% (và đôi khi với các bảng khác, như 10%, 2% và 0,5%) vì muốn sử dụng bất kỳ giá trị 'tiêu chuẩn' nào khác.

Tuy nhiên, trong bài báo này , Cowles và Davis đề nghị rằng việc sử dụng 5% - hoặc ít nhất là gần với nó - quay trở lại xa hơn nhận xét của Fisher.

Nói tóm lại, việc chúng tôi sử dụng 5% (và ở mức độ thấp hơn 1%) là quy ước khá độc đoán, mặc dù rõ ràng rất nhiều người dường như cảm thấy rằng đối với nhiều vấn đề họ đang ở đúng sân bóng.

Không có lý do hoặc giá trị cụ thể nên được sử dụng nói chung.

Tham khảo thêm:

Dallal, Gerard E. (2012). Cẩm nang nhỏ về thực hành thống kê. - Tại sao 0,05?

Stigler, Stephen (tháng 12 năm 2008). "Fisher và mức 5%". Cơ hội 21 (4): 12. có sẵn tại đây

(Giữa họ, bạn có một chút nền tảng - có vẻ như giữa họ có một trường hợp tốt để suy nghĩ mức độ quan trọng ít nhất là trong sân bóng chung là 5% - nói từ 2% đến 10% - đã nhiều hơn hoặc ít hơn không khí trong một thời gian.)

— Glen_b
nguồn

36

Tôi phải đưa ra câu trả lời không giống như ở đây ):

"... chắc chắn, Chúa yêu thích 0,05 gần bằng 0,05. Có ai có thể nghi ngờ rằng Chúa xem sức mạnh của bằng chứng cho hay chống lại null là một chức năng khá liên tục của cường độ p?" (tr.1277)

Rosnow, RL, & Rosenthal, R. (1989). Thủ tục thống kê và sự biện minh của kiến thức trong khoa học tâm lý. Nhà tâm lý học người Mỹ , 44 (10), 1276-1284. pdf

Bài viết có chứa một số thảo luận thêm về vấn đề này.

— Henrik
nguồn

9

Còn 0,055 thì sao? :)

— nico

33

@nico Không ai thích 0,055

— Fomite

18

Tôi tin rằng có một số tâm lý cơ bản cho 5%. Tôi phải nói rằng tôi không nhớ mình đã nhặt cái này ở đâu, nhưng đây là bài tập tôi thường làm với mọi lớp chỉ số giới thiệu đại học.

Hãy tưởng tượng một người lạ tiếp cận bạn trong một quán rượu và nói với bạn: "Tôi có một đồng xu thiên vị tạo ra đầu thường xuyên hơn đuôi. Bạn có muốn mua một cái từ tôi, để bạn có thể đặt cược với bạn bè của mình và kiếm tiền từ đó không?" Bạn ngập ngừng đồng ý để xem, và tung đồng xu nói 10 lần. Câu hỏi : phải mất bao nhiêu lần để hạ cánh / đuôi để thuyết phục bạn rằng nó bị sai lệch?

Sau đó, tôi giơ tay: ai sẽ bị thuyết phục rằng đồng xu bị sai lệch nếu tỷ lệ chia là 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Chà, hai hoặc ba người đầu tiên sẽ không thuyết phục được ai, và người cuối cùng sẽ thuyết phục mọi người; 2/8 và 1/9 sẽ thuyết phục hầu hết mọi người, mặc dù. Bây giờ, nếu bạn tra cứu bảng nhị thức, 2/8 là 5,5% và 1/9 là 1%. QED.

$n$

Trong một câu trả lời khác, Glen_b trích dẫn câu hỏi của Fisher cung cấp cuộc thảo luận về việc liệu những con số ma thuật này có nên được sửa đổi hay không tùy thuộc vào mức độ nghiêm trọng của vấn đề, vì vậy xin đừng làm cho nó "Có một cách điều trị mới cho bệnh bạch cầu của chị gái bạn, nhưng nó sẽ chữa khỏi cho cô ấy 3 tháng hoặc giết cô ta trong 3 ngày, vì vậy hãy lật vài đồng xu "- điều này sẽ trông ngớ ngẩn như truyện tranh xkcd khét tiếng mà ngay cả Andrew Gelman cũng không thích lắm.

Nói về tiền xu và Gelman, TAS đã có một bài báo rất tò mò của Gelman và Nolan với tiêu đề "Bạn có thể tải một con súc sắc, nhưng bạn không thể thiên vị một đồng xu" , đưa ra một lập luận rằng đồng xu, lật lên không trung hoặc quay tròn máy tính bảng, sẽ dành khoảng một nửa thời gian để đứng lên, và lần khác, đuôi lên, vì vậy rất khó để đưa ra một cơ chế vật lý để nghiêm túc thiên vị một đồng xu. (Đây rõ ràng là một nghiên cứu có nguồn gốc từ quán rượu, khi họ thử nghiệm nắp chai bia.) Mặt khác, tải một cái chết là một việc tương đối dễ thực hiện, và tôi đã cho học sinh của mình tập thể dục với khoảng 1 cm / nửa -Những khối gỗ từ một cửa hàng sở thích địa phương và giấy nhám yêu cầu họ tải chết, và chứng minh với tôi rằng nó đã được tải - đó là một bài tập trong bài kiểm tra Pearson về tỷ lệ và sức mạnh của nó. $\chi^2$

— StasK
nguồn

3

Pháp sư thường có thể kiểm soát việc lật đồng xu. Nhà thống kê-nhà toán học-nhà ảo thuật (hoán vị vị giác) Persi Diaconis nổi tiếng về điều này (và nhiều, nhiều thứ khác).

— Nick Cox

@StasK - Một vài năm trước, tôi đã hỏi một câu hỏi tương tự như những gì trong đoạn thứ hai của bạn ở trên. Đây là liên kết: stats.stackexchange.com/questions/7036/ từ

— bill_080

hóa đơn, bạn hỏi về sức mạnh, về cơ bản. Câu hỏi này đề cập đến mức độ của bài kiểm tra.

— StasK

9

5% dường như được làm tròn từ 4,56% bởi Fisher, tương ứng với "vùng đuôi của đường cong vượt quá giá trị trung bình cộng với ba hoặc trừ ba lỗi có thể xảy ra" (Hurlbert & Lombardi, 2009).

Một yếu tố khác của câu chuyện dường như là sự tái tạo các bảng với các vlau quan trọng (Pearson et al., 1990; Lehmann, 1993). Fisher đã không được Pearson cho phép sử dụng các bảng của mình (có lẽ cả hai do tiếp thị ấn phẩm của Pearson (Hurlbert & Lombardi, 2009) và bản chất có vấn đề của mối quan hệ của họ.

Hurlbert, SH, & Lombardi, CM (2009, tháng 10). Sự sụp đổ cuối cùng của khuôn khổ lý thuyết quyết định Neyman-Pearson và sự trỗi dậy của tân sinh viên. Trong Annales Zoologici Fennici (Tập 46, Số 5, trang 311-349). Nhà xuất bản động vật học và thực vật Phần Lan

Lehmann, EL (1993). Các lý thuyết của Fisher, Neyman-Pearson về các giả thuyết thử nghiệm: Một hay hai lý thuyết?. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL, & Barnard, GA (1990). Sinh viên: tiểu sử thống kê của William Sealy Gosset. Nhà xuất bản Đại học Oxford, Hoa Kỳ.

Xem thêm: Gigerenzer, G. (2004). Thống kê vô tâm. Tạp chí kinh tế xã hội, 33 (5), 587-606.

Hubbard, R., & Lindsay, RM (2008). Tại sao giá trị P không phải là thước đo hữu ích của bằng chứng trong kiểm tra ý nghĩa thống kê. Lý thuyết & Tâm lý học, 18 (1), 69-88.

— nói đùa
nguồn

7

Dường như với tôi câu trả lời là trong lý thuyết nghiên cứu trò chơi nhiều hơn là trong các số liệu thống kê. Có 1% và 5% bị đốt cháy trong ý thức chung có nghĩa là các nhà nghiên cứu không thực sự tự do lựa chọn các mức ý nghĩa phù hợp với khuynh hướng của họ. Giả sử chúng tôi đã thấy một bài báo có giá trị p là 0,55 và trong đó mức ý nghĩa đã được đặt ở mức 6% - các câu hỏi sẽ được đặt ra. 1% và 5% cung cấp một hình thức cam kết đáng tin cậy.

— phỏng đoán
nguồn

7

Có thể, nhưng bạn có nghĩ rằng các nhà nghiên cứu không thao túng hồi quy, sử dụng thử nghiệm lặp đi lặp lại, v.v. để ép dưới mức 5% đã thiết lập chẳng hạn ...

— kirk

Tất nhiên điều đó là có thể, và có lẽ sẽ xảy ra. Nhưng câu hỏi là khoảng 1% và 5%. Dường như với tôi như đó là một nỗ lực để thiết lập một quy ước xã hội về thời điểm chấp nhận một cái gì đó có ý nghĩa. Đây là tùy ý, nhưng chúng tùy ý cho các nhà nghiên cứu như một nhóm chứ không phải tùy tiện cho các nhà nghiên cứu riêng lẻ.

— phỏng đoán

3

Đồng ý, tôi chỉ chỉ ra rằng có mức ý nghĩa thông thường không có nghĩa là câu hỏi không nên được hỏi, như bạn đã suy luận trong bài viết của mình. Chỉ vì một bài báo trình bày một kết quả quan trọng ở mức độ thông thường không có nghĩa là nó đáng tin cậy!

— kirk

Ah, tôi đã sử dụng đáng tin theo nghĩa lý thuyết trò chơi (hoặc cố gắng). Như trong bạn làm cho một mối đe dọa đáng tin cậy nếu đó không phải là thứ bạn có thể rút lui hoặc thay đổi suy nghĩ về sau này. Trong trường hợp này, các nhà nghiên cứu riêng lẻ sẽ gặp khó khăn trong việc giảm bớt một số ngưỡng tùy ý khác.

— phỏng đoán

2

p

$p$

6

Giả thuyết cá nhân của tôi là 0,05 (hoặc 1 trong 20) được liên kết với giá trị at / z của (rất gần với) 2. Sử dụng 2 là tốt, bởi vì rất dễ phát hiện nếu kết quả của bạn có ý nghĩa thống kê. Không có hợp lưu khác của số tròn.

— Jeremy Miles
nguồn

7

Z = 1

$Z=1$

Z = 3

$Z=3$

9

1 / 3

$1/3$

1 / 20

$1/20$

1 / 400

$1/400$

1 / 16000

$1/16000$

z = 1, 2, 3, 4

$z=1,2,3,4$

1

:) Hmm ... điểm tốt. Nhưng bạn cần bị ràng buộc bởi những gì bạn sử dụng như một điểm giới hạn - 1/3 là một chút lỏng lẻo, 1/400 một lần chạm nghiêm ngặt.

— Jeremy Miles

10

Đó chính xác là những gì tôi đang làm, Jeremy: truyền thống 5% và 1%, ít nhất là một phần, dựa trên khái niệm rủi ro thống kê ("một chút lỏng lẻo" hoặc "nghiêm ngặt chạm") và ban đầu không xuất phát từ bất kỳ quy tắc thuận tiện của ngón tay cái.

— whuber

1

Z = 1

$Z=1$

1 / π

$1/{\pi}$

6

Số chính xác duy nhất là .04284731

... đó là một câu trả lời ngắn gọn có nghĩa là sự lựa chọn 0,05 về cơ bản là tùy ý. Tôi thường chỉ báo cáo giá trị p, thay vì giá trị p lớn hơn hoặc nhỏ hơn.

"Ý nghĩa" là một biến liên tục, và theo tôi, việc rời rạc nó thường gây hại nhiều hơn là tốt. Ý tôi là, nếu p = .13, bạn đã tự tin hơn nếu p = .21 và ít hơn nếu p = .003

— chung_user
nguồn

Chà, trong thời của các bảng, người ta ít nhiều bị buộc phải rời rạc ... vì các bảng được sử dụng trong giảng dạy, điều này tiếp tục ...

— kjetil b halvorsen 18/12/18

@kjetilbhalvorsen, các nhà sản xuất bảng rõ ràng đã sai lầm khi không chọn .04284731 cho các giá trị quan trọng của họ.

— generic_user

2

Đây là một lĩnh vực kiểm tra giả thuyết luôn mê hoặc tôi. Cụ thể bởi vì một ngày nào đó có người quyết định một số tùy ý phân đôi thủ tục kiểm tra và kể từ đó mọi người hiếm khi đặt câu hỏi.

Tôi nhớ có một giảng viên nói với chúng tôi rằng đừng đặt niềm tin quá nhiều vào bài kiểm tra Staiger và Stock về các biến công cụ (trong đó chỉ số F phải trên 10 trong hồi quy giai đoạn đầu để tránh các vấn đề về nhạc cụ yếu) bởi vì số 10 là một Lựa chọn hoàn toàn tùy ý. Tôi nhớ mình đã nói "Nhưng đó không phải là những gì chúng ta làm với kiểm tra giả thuyết thông thường ?????"

— Kinh tế
nguồn

5

Đây có phải là một câu trả lời, @EconStats? Nó có vẻ giống như một bình luận. Hãy nhớ rằng CV không nhằm mục đích như một diễn đàn thảo luận. Bạn có phiền làm cho câu trả lời với bài đăng này nổi bật hơn không?

— gung

1

Xin lỗi @gung. Tôi đoán quan điểm của tôi là, mặc dù có một số bằng chứng được cung cấp bởi những người dùng khác, tôi vẫn nghĩ rằng câu trả lời rất có thể là chúng tôi có một hệ thống đánh số thập phân và nó vẫn được sử dụng cho đến ngày nay để đưa ra các con số tùy ý cho các bài kiểm tra giả thuyết ví dụ: Staiger và Stock F-test mà tôi đã đề cập.

— Kinh tế

1

Là poster ban đầu của câu hỏi này, tôi tin rằng điều này chắc chắn đủ điều kiện là một câu trả lời. Cảm ơn!

— Contango

0

Tại sao 1 và 5? Bởi vì họ cảm thấy đúng.

Tôi chắc chắn có những nghiên cứu về giá trị cảm xúc và khả năng nhận thức của những con số cụ thể, nhưng chúng ta có thể hiểu sự lựa chọn của 1 và 5 mà không cần phải nghiên cứu.

Những người tạo ra số liệu thống kê ngày nay được sinh ra, lớn lên và sống trong một thế giới thập phân. Tất nhiên, có những hệ thống đếm không thập phân, và đếm đến mười hai bằng cách sử dụng các phalang là có thể và đã được thực hiện, nhưng nó không rõ ràng giống như cách sử dụng các ngón tay (do đó được gọi là "chữ số", giống như các số ). Và trong khi bạn (và Fisher) có thể biết về các hệ thống đếm không thập phân, thì hệ thập phân là và là hệ thống đếm chiếm ưu thế của bạn (và thế giới của Fisher) trong hàng trăm năm qua.

Nhưng tại sao các số năm và một đặc biệt? Bởi vì cả hai đều là sự phân chia tự nhiên nhất của mười cơ bản: một ngón tay, một bàn tay (hoặc: một nửa).

Bạn thậm chí không cần phải đi xa đến mức khái niệm hóa các phân số để có được từ mười đến một và năm. Một là chỉ đơn giản là ở đó, giống như ngón tay của bạn chỉ đơn giản là ở đó. Và giảm một nửa thứ gì đó là một thao tác đơn giản hơn nhiều so với việc chia nó thành bất kỳ tỷ lệ nào khác. Cắt bất cứ thứ gì thành hai phần không cần phải suy nghĩ, trong khi chia cho ba hoặc bốn thì khá phức tạp.

Hầu hết các hệ thống tiền tệ hiện tại đều có tiền và tiền giấy với các giá trị như 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Một số hệ thống tiền tệ không có 2, 20 và 200, nhưng hầu hết đều có sự khởi đầu trong 1 và 5. Đồng thời, hầu hết các hệ thống tiền tệ không có đồng xu hoặc tiền giấy bắt đầu từ 3, 4, 6, 7, 8 hoặc 9. Thật thú vị phải không? Nhưng tại sao lại như vậy?

Bởi vì bạn luôn cần mười trong số 1 hoặc hai trong số 5 (hoặc năm trong số 2) để đến đơn hàng lớn hơn tiếp theo. Tính bằng tiền rất đơn giản: gấp mười, hoặc gấp đôi. Chỉ cần hai loại hoạt động. Mỗi đồng xu mà bạn có là một nửa hoặc một phần mười của đồng tiền đặt hàng tiếp theo. Những con số đó nhân lên và cộng lại dễ dàng và tốt.

Vì vậy, 1 và 5 đã ăn sâu, từ thời thơ ấu của họ, vào Fisher và bất cứ ai khác đã chọn các mức ý nghĩa là các phân chia cơ bản nhất, đơn giản nhất, cơ bản nhất của 10. Bất kỳ số nào khác cũng cần một lập luận cho nó, trong khi những số này số chỉ đơn giản là có.

Trong trường hợp không có cách khách quan để tính mức ý nghĩa phù hợp cho mỗi tập dữ liệu riêng lẻ, thì một và năm chỉ cảm thấy đúng.

"mà không cần phải dùng đến nghiên cứu." Trong khi tôi nghĩ rằng câu trả lời là tốt, điều này đặt nó chắc chắn vào lãnh thổ ý kiến. Nó sẽ cho vay nhiều uy tín và sẽ làm cho câu trả lời có thẩm quyền hơn nếu có nguồn để sao lưu điều này.

— Momo