So sánh và đối chiếu, giá trị p, mức ý nghĩa và lỗi loại I


21

Tôi đã tự hỏi nếu bất cứ ai có thể đưa ra một tóm tắt ngắn gọn về các định nghĩa và việc sử dụng các giá trị p, mức ý nghĩa và lỗi loại I.

Tôi hiểu rằng giá trị p được định nghĩa là "xác suất đạt được thống kê kiểm tra ít nhất là cực trị như mức chúng tôi thực sự quan sát", trong khi mức ý nghĩa chỉ là giá trị ngưỡng tùy ý để đánh giá xem giá trị p có đáng kể hay không . Lỗi loại I là lỗi từ chối một giả thuyết khống là đúng. Tuy nhiên, tôi không chắc về sự khác biệt giữa mức ý nghĩa và lỗi loại I, chúng có phải là cùng một khái niệm không?

Ví dụ: giả sử một thử nghiệm rất đơn giản trong đó tôi lật một đồng xu 1000 lần và đếm số lần nó rơi vào 'đầu'. Giả thuyết khống của tôi, H0, là những cái đầu = 500 (đồng xu không thiên vị). Sau đó tôi đặt mức ý nghĩa của mình ở mức alpha = 0,05.

Tôi lật đồng xu 1000 lần và sau đó tôi tính giá trị p, nếu giá trị p> 0,05 thì tôi không từ chối giả thuyết null và nếu giá trị p <0,05 thì tôi từ chối giả thuyết null.

Bây giờ nếu tôi thực hiện thí nghiệm này nhiều lần, mỗi lần tính giá trị p và từ chối hoặc không từ chối giả thuyết khống và giữ số lượng tôi từ chối / không từ chối, thì cuối cùng tôi sẽ từ chối 5% giả thuyết khống Điều đó đúng trong thực tế, điều đó có đúng không? Đây là định nghĩa của lỗi loại I. Do đó, mức ý nghĩa trong thử nghiệm ý nghĩa của Fisher về cơ bản là lỗi loại I từ thử nghiệm giả thuyết Neyman-Pearson nếu bạn thực hiện các thí nghiệm lặp lại.

Bây giờ đối với giá trị p, nếu tôi đã nhận được giá trị p là 0,06 từ thử nghiệm cuối cùng của mình và tôi đã thực hiện nhiều thử nghiệm và đếm tất cả các giá trị mà tôi có giá trị p từ 0 đến 0,06, thì tôi cũng sẽ không có 6% cơ hội bác bỏ một giả thuyết null thực sự?

Câu trả lời:


16

Câu hỏi có vẻ đơn giản, nhưng sự phản ánh của bạn xung quanh nó cho thấy nó không đơn giản.

Trên thực tế, giá trị p là một bổ sung tương đối muộn vào lý thuyết thống kê. Tính toán giá trị p mà không có máy tính là rất tẻ nhạt; đây là lý do tại sao cách duy nhất để thực hiện kiểm tra thống kê cho đến gần đây là sử dụng các bảng kiểm tra thống kê, như tôi đã giải thích trong bài đăng trên blog này . Vì các bảng đó được tính cho các mức cố định (thường là 0,05, 0,01 và 0,001), bạn chỉ có thể thực hiện kiểm tra với các mức đó.α

Máy tính làm cho các bảng đó trở nên vô dụng, nhưng logic của kiểm tra vẫn giống nhau. Bạn nên:

  1. Xây dựng một giả thuyết null.
  2. Xây dựng một giả thuyết thay thế.
  3. Quyết định lỗi loại I tối đa (xác suất từ ​​chối sai giả thuyết khống) lỗi mà bạn sẵn sàng chấp nhận.
  4. Thiết kế một vùng từ chối. Xác suất thống kê kiểm tra rơi vào vùng loại bỏ cho rằng giả thuyết khống là mức của bạn . Như @ MånsT giải thích, giá trị này không nhỏ hơn lỗi loại I chấp nhận được của bạn và trong nhiều trường hợp sử dụng các xấp xỉ tiệm cận.α
  5. Thực hiện thí nghiệm ngẫu nhiên, tính toán thống kê kiểm tra và xem liệu nó có rơi vào vùng loại bỏ hay không.

Về lý thuyết, có một sự tương đương nghiêm ngặt giữa các sự kiện "thống kê rơi vào vùng loại bỏ""giá trị p nhỏ hơn "α , đó là lý do tại sao bạn có thể báo cáo giá trị p thay thế . Trong thực tế, nó cho phép bạn bỏ qua bước 3. và đánh giá lỗi loại I sau khi thử nghiệm được thực hiện .

Để trở lại bài viết của bạn, tuyên bố của giả thuyết null là không chính xác. Giả thuyết null là xác suất lật đầu là (giả thuyết null không thể liên quan đến kết quả của thí nghiệm ngẫu nhiên).1/2

Nếu bạn lặp lại thử nghiệm nhiều lần với giá trị p là 0,05, vâng, bạn sẽ có khoảng từ chối khoảng 5%. Và nếu bạn đặt mức cắt giảm giá trị p là 0,06, bạn sẽ bị từ chối khoảng 6%. Tổng quát hơn, đối với các thử nghiệm liên tục, theo định nghĩa của giá trịp

Prob(p<x)=x,(0<x<1),

điều này chỉ đúng với các xét nghiệm rời rạc.

Đây là một số mã R mà tôi hy vọng có thể làm rõ điều này một chút. Bài kiểm tra nhị thức tương đối chậm, vì vậy tôi chỉ thực hiện 10.000 thí nghiệm ngẫu nhiên trong đó tôi lật 1000 đồng xu. Tôi thực hiện kiểm tra nhị thức và thu thập 10.000 giá trị p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Bạn có thể thấy rằng tỷ lệ không chính xác, vì kích thước mẫu không phải là vô hạn và thử nghiệm là rời rạc, nhưng vẫn có sự gia tăng khoảng 1% giữa hai loại.


@ MånsT Cảm ơn! +1 cho bạn để phân biệt giữa các bài kiểm tra liên tục và rời rạc (mà tôi hoàn toàn có thể bỏ qua).
gui11aume

4
@ gui11aume, cảm ơn bạn đã nhập! Tuy nhiên, tuyên bố của bạn "giá trị p là một bổ sung tương đối muộn vào lý thuyết thống kê" là lạ. Từ những gì tôi đã đọc, 'thử nghiệm ý nghĩa' của Fisher với các giá trị p bắt nguồn vào khoảng năm 1925. Trong khi 'thử nghiệm giả thuyết' của Neyman-Pearson đã xuất hiện như một 'cải tiến' cho công việc của Fisher vài năm sau đó. Mặc dù đúng là giá trị p rất khó tính toán (do đó tại sao mức độ quan trọng tiêu chuẩn được sử dụng), công việc của ông rất hoành tráng. Trên thực tế, ông được gọi là 'cha đẻ của thống kê' vì ông đã hình thành nên cơ sở của nhiều thống kê hiện đại.
BYS2

2
@ BYS2 Hoàn toàn đúng (+1). Lý thuyết về giá trị p bắt nguồn từ nguồn gốc của thống kê. Đó là sử dụng phổ biến của họ là gần đây. Cảm ơn bạn đã chú ý ;-)
gui11aume

@guillaume cảm ơn vì điều đó, tôi có một câu hỏi nhanh khác mặc dù. Bạn nói rằng giả thuyết khống của tôi không thể là H 0 = 500 nhưng tôi có vẻ như có rất nhiều văn bản sử dụng ví dụ: giả thuyết không có nghĩa là giá trị trung bình sẽ là 0 hoặc sự khác biệt về phương tiện sẽ là 10 .. Tôi chưa bao giờ gặp vấn đề gì làm như vậy: s .. Phân phối t về cơ bản chỉ là tỷ lệ nếu tôi sử dụng H0 = 500 thay vì H0 = 0,5
BYS2

1
@ gui11aume: Có lẽ sẽ rất thú vị khi xem câu trả lời của tôi: stats.stackexchange.com/questions/166323/ Kẻ

15

Bạn đang nhận được câu trả lời tốt ở đây từ @MansT & @ gui11aume (+1 cho mỗi). Hãy để tôi xem nếu tôi có thể nhận được rõ ràng hơn ở một cái gì đó trong cả hai câu trả lời của họ.

Khi làm việc với dữ liệu rời rạc , chỉ có một số giá trị p nhất định có thể và vấn đề trở nên tồi tệ hơn với ít khả năng / bộ dữ liệu nhỏ hơn. Ví dụ, tưởng tượng lật một đồng xu lần. Xác suất nhận được một số lượng đầu cụ thể, , là: Hãy nói rằng một nhà nghiên cứu muốn để kiểm tra một đồng tiền nhất định (mà thực sự công bằng) cho sự công bằng bằng cách lật nó 10 lần và ghi lại số lượng người đứng đầu. Đó là, giả thuyết null là đúng ở đây. Nhà nghiên cứu của chúng tôi đặtk p ( k ) = n !nkα=.05

p(k)=n!k!(nk)!pk(1p)nk
α=.05, theo quy ước và bởi vì đó là những gì cần thiết để được cộng đồng lớn hơn chấp nhận. Bây giờ, bỏ qua alpha thông thường trong giây lát, hãy xem xét các giá trị p 2 đuôi (tỷ lệ lỗi loại I) có thể xảy ra trong tình huống này:
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

Điều này chứng tỏ rằng việc sử dụng sẽ dẫn đến tỷ lệ lỗi loại I 2 đuôi dài hạn là . Vì vậy, đây rõ ràng là một trường hợp , tuy nhiên, nếu được đặt thành một trong các giá trị ở trên ( thay vì của ) thì mức ý nghĩa sẽ bằng tỷ lệ lỗi loại I. Mặc dù vấn đề đó, giá trị p không bằng tỷ lệ lỗi loại I trong trường hợp này. Lưu ý rằng không có vấn đề nào ở đây với sự không phù hợp giữa thống kê suy luận rời rạc và phân phối tham chiếu liên tục, bởi vì tôi đã sử dụng chính xác0,021 α loại I lỗi alpha .05α=.05.021αtype I errorα.05xác suất nhị thức. Lưu ý thêm rằng các tình huống như thế này đã thúc đẩy sự phát triển của giá trị p giữa để giúp giảm thiểu sự khác biệt giữa giá trị p và mức ý nghĩa.

Có thể có trường hợp giá trị p được tính không bằng tỷ lệ lỗi loại I dài hạn, ngoài thực tế là tỷ lệ lỗi loại I không nhất thiết phải bằng mức ý nghĩa. Hãy xem xét một bảng dự phòng 2x2 với các số đếm được quan sát:

     col1 col2
row1   2    4   
row2   4    2

Bây giờ, tôi nên tính giá trị p cho tính độc lập của các hàng và cột như thế nào? Có nhiều lựa chọn (mà tôi thảo luận ở đây ). Tôi sẽ bắt đầu bằng cách tính toán thống kê và so sánh nó với phân phối tham chiếu của nó; mang lại . Các phân phối tài liệu tham khảo là liên tục, tuy nhiên, và vì vậy chỉ một xấp xỉ như thế nào cụ thể (rời rạc) này Thống kê sẽ cư xử. Chúng tôi có thể sử dụng thử nghiệm chính xác của Fisher để xác định tỷ lệ lỗi loại I thực sự; sau đó tôi nhận đượcχ2 χ 2 χ 2 p=0,56710,56370,5671χ12=1.3,p=.248χ2χ2p=.5671. Khi giá trị p được tính theo cách này, nó sẽ bằng với tỷ lệ lỗi loại I, mặc dù chúng ta vẫn có câu hỏi liệu một trong các giá trị p có thể có chính xác là 5% hay không. Hãy để tôi thừa nhận rằng tôi đã lừa dối một chút, nếu tôi đã sử dụng hiệu chỉnh của Yates cho tính liên tục, tôi sẽ có được xấp xỉ tốt hơn về tỷ lệ lỗi loại I thực sự, nhưng nó vẫn không hoàn toàn đúng ( ). .5637.5671

Do đó, vấn đề ở đây là, với dữ liệu rời rạc:

  • mức ý nghĩa ưa thích của bạn có thể không phải là một trong những tỷ lệ lỗi loại I có thể xảy ra, &
  • sử dụng xấp xỉ (thông thường) để thống kê liên tục sẽ mang lại giá trị p được tính toán không chính xác.

Những vấn đề này càng trầm trọng hơn khi của bạn càng nhỏ . Theo tôi biết, những vấn đề này không tồn tại với dữ liệu liên tục. N

(Mặc dù câu hỏi không hỏi về giải pháp cho những vấn đề này), có những điều giảm thiểu những vấn đề này:

  • lớn hơn có nghĩa là nhiều giá trị có thể hơn, làm cho mọi thứ liên tục hơn, N
  • thường có các hiệu chỉnh (chẳng hạn như hiệu chỉnh liên tục của Yates) sẽ mang các giá trị được tính gần với giá trị chính xác hơn,
  • các thử nghiệm chính xác (nếu có thể kéo được, nghĩa là, nếu đủ nhỏ) sẽ mang lại giá trị p chính xác N
  • giá trị p giữa cung cấp khả năng đưa tỷ lệ lỗi loại I của bạn gần với mức độ tin cậy đã chọn của bạn,
  • bạn rõ ràng có thể sử dụng một trong các tỷ lệ lỗi loại I tồn tại (hoặc lưu ý nó sẽ là gì).

Thật tuyệt khi bạn đã đi vào chi tiết mà chúng tôi để lại ở bên cạnh (+1).
gui11aume

@gung - bạn có thể nhận xét về cách bạn có tỷ lệ lỗi loại I cho bảng đầu tiên không?
thống kê134711

@ stats134711, đó chỉ là tổng xác suất riêng cho các tùy chọn cực kỳ hoặc cực đoan hơn (2 đuôi).
gung - Phục hồi Monica

14

Các khái niệm thực sự được liên kết mật thiết với nhau.

P(type I error)=ααP(type I error)ααP(type I error)αα

Giá trị p là mức ý nghĩa thấp nhất mà tại đó giả thuyết null sẽ được chấp nhận . Do đó, nó cho chúng ta biết "kết quả" có ý nghĩa như thế nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.