Tại sao giá trị p được phân phối đồng đều theo giả thuyết null?


115

Gần đây, tôi đã tìm thấy trong một bài báo của Klammer, et al. một tuyên bố rằng giá trị p phải được phân phối đồng đều. Tôi tin các tác giả, nhưng không thể hiểu tại sao nó lại như vậy.

Klammer, AA, Park, CY, và Stafford Noble, W. (2009) Hiệu chuẩn thống kê của hàm SEQUEST XCorr . Tạp chí Nghiên cứu về Proteome . 8 (4): 2106 trận2113.


24
Điều này ngay lập tức từ định nghĩa của giá trị p là biến đổi tích phân xác suất của thống kê kiểm tra sử dụng phân phối theo giả thuyết null. Kết luận yêu cầu phân phối phải liên tục. Khi phân phối rời rạc (hoặc có các nguyên tử), phân phối giá trị p cũng rời rạc và do đó chỉ có thể xấp xỉ đồng nhất.
whuber

1
@whuber đã đưa ra câu trả lời đó là điều mà tôi nghi ngờ. Tôi đã hỏi tài liệu tham khảo ban đầu chỉ để chắc chắn rằng có gì đó không bị mất trong bản dịch. Thông thường không quan trọng việc bài viết có cụ thể hay không, nội dung thống kê luôn hiển thị thông qua :)
mpiktas

10
Chỉ khi là đúngH0 ! ... và nghiêm ngặt hơn, chỉ khi liên tục (mặc dù điều gì đó đúng trong trường hợp không liên tục; tôi không biết từ đúng cho trường hợp chung nhất; đó không phải là tính đồng nhất). Sau đó, nó xuất phát từ định nghĩa của giá trị p.
Glen_b

2
Đây có thể được coi là một biến thể của nguyên tắc cơ học thống kê cơ bản (rằng sinh viên thường gặp khó khăn tương tự chấp nhận) rằng tất cả các trạng thái vi mô của một hệ thống vật lý có xác suất như nhau.
DWin

5
Làm thế nào về khiếu nại trong bài viết này: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Câu trả lời:


83

Để làm rõ một chút. Giá trị p được phân phối đồng đều khi giả thuyết null là đúng và tất cả các giả định khác đều được đáp ứng. Lý do cho điều này thực sự là định nghĩa của alpha là xác suất của lỗi loại I. Chúng tôi muốn xác suất từ ​​chối một giả thuyết null thực sự là alpha, chúng tôi từ chối khi được quan sát , cách duy nhất xảy ra đối với bất kỳ giá trị nào của alpha là khi giá trị p xuất phát từ đồng phục phân phối. Toàn bộ quan điểm của việc sử dụng phân phối chính xác (bình thường, t, f, chisq, v.v.) là để chuyển đổi từ thống kê kiểm tra sang giá trị p thống nhất. Nếu giả thuyết null là sai thì việc phân phối giá trị p sẽ (hy vọng) sẽ có trọng số hơn về 0.p-value<α

Các Pvalue.norm.simPvalue.binom.simchức năng trong TeachingDemos gói cho R sẽ mô phỏng một số bộ dữ liệu, tính toán p-giá trị và âm mưu chúng để chứng minh ý tưởng này.

Cũng thấy:

Murdoch, D, Tsai, Y và Adcock, J (2008). Giá trị P là các biến ngẫu nhiên. Nhà thống kê người Mỹ , 62 , 242-245.

để biết thêm chi tiết.

Biên tập:

Vì mọi người vẫn đang đọc câu trả lời và bình luận này, tôi nghĩ rằng tôi sẽ giải quyết bình luận của @ whuber.

Đúng là khi sử dụng giả thuyết null tổng hợp như , các giá trị p sẽ chỉ được phân phối đồng đều khi 2 phương tiện chính xác bằng nhau và sẽ không đồng nhất nếu là bất kỳ giá trị nào nhỏ hơn . Điều này có thể dễ dàng được nhìn thấy bằng cách sử dụng chức năng và thiết lập nó để thực hiện kiểm tra một phía và mô phỏng với mô phỏng và giả thuyết có nghĩa là khác nhau (nhưng theo hướng để làm cho null đúng).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

Theo như lý thuyết thống kê, điều này không thành vấn đề. Hãy xem xét nếu tôi tuyên bố rằng tôi cao hơn mọi thành viên trong gia đình bạn, một cách để kiểm tra yêu cầu này sẽ là so sánh chiều cao của tôi với chiều cao của từng thành viên trong gia đình bạn. Một lựa chọn khác là tìm thành viên trong gia đình bạn cao nhất và so sánh chiều cao của họ với tôi. Nếu tôi cao hơn người đó thì tôi cũng cao hơn người còn lại và yêu cầu của tôi là đúng, nếu tôi không cao hơn người đó thì yêu cầu của tôi là sai. Kiểm tra null tổng hợp có thể được xem là một quá trình tương tự, thay vì kiểm tra tất cả các kết hợp có thể có trong đó chúng ta chỉ có thể kiểm tra phần bằng vì nếu chúng ta có thể từ chối lợi choμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2sau đó chúng tôi biết rằng chúng tôi cũng có thể từ chối tất cả các khả năng của . Nếu chúng ta xem xét phân phối giá trị p cho các trường hợp thì phân phối sẽ không hoàn toàn đồng nhất nhưng sẽ có nhiều giá trị gần hơn 1 hơn 0 có nghĩa là xác suất xảy ra lỗi loại I sẽ nhỏ hơn giá trị được chọn làm cho nó trở thành một thử nghiệm bảo thủ. Đồng phục trở thành phân phối giới hạn khi gần hơn vớiμ1<μ2μ1<μ2αμ1μ2(những người hiện tại hơn về các thuật ngữ lý thuyết thống kê có thể có thể nói điều này tốt hơn về mặt tối cao phân phối hoặc đại loại như thế). Vì vậy, bằng cách xây dựng thử nghiệm của chúng tôi giả sử phần bằng của null ngay cả khi null là hợp số, thì chúng tôi đang thiết kế thử nghiệm của mình để có xác suất xảy ra lỗi loại I nhiều nhất là cho mọi điều kiện trong đó null là đúng.α


Xin lỗi vì lỗi đánh máy tôi đã giới thiệu (nên đọc \leqbằng TeX)!
chl

1
Bài viết "Giá trị P là biến ngẫu nhiên" thực sự thú vị, có cuốn sách giới thiệu nào tuân thủ các nguyên tắc được nêu trong bài viết không?
Alessandro Jacopson

8
Mặc dù bình luận tôi đã đăng lên câu hỏi, tôi đã nhận ra rằng kết luận đó không đúng trừ trường hợp đặc biệt. Sự cố xảy ra với các giả thuyết tổng hợp, chẳng hạn như . "Giả thuyết là đúng" hiện bao gồm nhiều khả năng, chẳng hạn như trường hợp . Trong trường hợp như vậy, các giá trị p sẽ không được phân phối đồng đều. Tôi nghi ngờ người ta có thể tạo ra các tình huống (hơi giả tạo), trong đó, bất kể yếu tố nào của giả thuyết null, việc phân phối giá trị p sẽ không bao giờ ở bất kỳ nơi nào gần thống nhất. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber

1
@Greg Snow: Tôi nghĩ rằng phân phối của các giá trị p không phải lúc nào cũng đồng nhất, nó đồng nhất khi chúng được tính từ phân phối liên tục, nhưng không phải khi chúng được tính từ một phân phối rời rạc

1
Tôi đã mở rộng câu trả lời ở trên để giải quyết nhận xét của @whuber.
Greg Snow

26

Theo giả thuyết khống, thống kê kiểm tra của bạn có phân phối (ví dụ: tiêu chuẩn thông thường). Chúng tôi chỉ ra rằng giá trị có phân phối xác suất nói cách khác, được phân phối đồng đều. Điều này giữ cho đến khi không thể đảo ngược, một điều kiện cần thiết là không phải là một biến ngẫu nhiên rời rạc.TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Kết quả này là chung: sự phân phối CDF khả nghịch của một biến ngẫu nhiên là thống nhất trên .[0,1]


8
bạn có thể muốn viết lại bình luận cuối cùng của bạn, điều này hơi khó hiểu. CDF liên tục không nhất thiết phải có nghịch đảo (thích hợp). (Bạn có thể nghĩ về một ví dụ mẫu không?) Vì vậy, bằng chứng của bạn yêu cầu các điều kiện bổ sung để giữ. Cách tiêu chuẩn để giải quyết vấn đề này là xác định pseudoinverse . Cuộc tranh luận cũng trở nên tinh tế hơn. F(y)=inf{x:F(x)y}
Đức hồng y

1
Liên quan đến làm việc với các nghịch đảo tổng quát, xem link.springer.com/article/10.1007%2Fs00186-013-0436-7 (đặc biệt, F (T) chỉ đồng nhất nếu F liên tục - không quan trọng là F có thể đảo ngược hay không không phải). Liên quan đến định nghĩa của bạn về giá trị p: Tôi không nghĩ nó luôn luôn là 'F (T)'. Đó là xác suất (dưới mức không) khi nhận một giá trị cực đoan hơn giá trị quan sát được, do đó, nó cũng có thể là chức năng sinh tồn (chính xác ở đây).
Marius Hofert

Không phải CDF sao? F(t)
zyxue

@zyxue Có, cdf đôi khi được gọi là "phân phối".
mikario

6

Gọi là biến ngẫu nhiên có hàm phân phối tích lũy cho tất cả . Giả sử rằng là khả nghịch, chúng ta có thể rút ra phân phối của giá trị p ngẫu nhiên như sau:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

từ đó chúng ta có thể kết luận rằng phân bố của là đồng nhất trên .P[0,1]

Câu trả lời này tương tự như của Charlie, nhưng tránh phải xác định .t=F1(p)


Như bạn đã xác định F, không phải P = F (T) = Pr (T <T) = 0?
TrynnaDoStat

Không chính xác, "thay thế cú pháp" của có phần sai lệch. Nói chính thức, là biến ngẫu nhiên được xác định bởiF(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

Mô phỏng đơn giản phân phối giá trị p trong trường hợp hồi quy tuyến tính giữa hai biến độc lập:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
Bạn có thể giải thích làm thế nào điều này trả lời câu hỏi? Mặc dù đầu ra của nó minh họa một trường hợp đặc biệt của khẳng định, không có số lượng mã nào có khả năng giải quyết câu hỏi tại sao ? Điều đó đòi hỏi giải thích thêm.
whuber

-1

Tôi không nghĩ rằng hầu hết các câu trả lời này thực sự trả lời câu hỏi nói chung. Chúng được giới hạn trong trường hợp khi có một giả thuyết null đơn giản và khi thống kê kiểm tra có CDF không thể đảo ngược (như trong một biến ngẫu nhiên liên tục có CDF tăng nghiêm ngặt). Những trường hợp này là những trường hợp mà hầu hết mọi người có xu hướng quan tâm với kiểm tra z và kiểm tra t, mặc dù để kiểm tra trung bình nhị thức (ví dụ) người ta không có CDF như vậy. Những gì được cung cấp ở trên có vẻ đúng với mắt tôi đối với những trường hợp bị hạn chế này.

Nếu các giả thuyết null là tổng hợp thì mọi thứ phức tạp hơn một chút. Bằng chứng tổng quát nhất về thực tế này tôi đã thấy trong trường hợp tổng hợp sử dụng một số giả định liên quan đến các khu vực từ chối được cung cấp trong "Giả thuyết thống kê thử nghiệm" của Lehmann và Romano, trang 63-64. Tôi sẽ cố gắng tạo lại đối số bên dưới ...

Chúng tôi thử nghiệm một giả thuyết so với một giả thuyết thay thế dựa trên một thống kê kiểm tra, mà chúng tôi sẽ biểu thị như các biến ngẫu nhiên . Thống kê kiểm tra được giả sử đến từ một số lớp tham số, ví dụ: , trong đó là một thành phần của họ phân phối xác suất và là một không gian tham số. Các giả thuyết và giả thuyết thay thế tạo thành một phân vùng của trong đó H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
trong đó
Θ0Θ1=.

Kết quả của thử nghiệm có thể được ký hiệu là trong đó với bất kỳ tập chúng tôi xác định Ở đây là mức ý nghĩa của chúng tôi và biểu thị vùng loại bỏ của thử nghiệm đối với mức ý nghĩa .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Giả sử các vùng loại bỏ thỏa mãn if . Trong trường hợp các vùng loại bỏ lồng nhau này, rất hữu ích để xác định không chỉ giả thuyết null có bị từ chối ở mức ý nghĩa nhất định , mà còn để xác định mức ý nghĩa nhỏ nhất mà giả thuyết null sẽ bị từ chối. Cấp độ này được gọi là giá trị p , Số này cho chúng tôi ý tưởng về dữ liệu mạnh như thế nào (như được mô tả bởi thống kê kiểm tra ) mâu thuẫn với giả thuyết null .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Giả sử rằng cho một số và rằng . Giả sử thêm rằng các vùng loại bỏ tuân theo thuộc tính lồng nhau đã nêu ở trên. Sau đó, giữ sau:XPθθΘH0:θΘ0Rα

  1. Nếu cho tất cả , thì với , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Nếu với chúng ta có cho tất cả , thì với chúng ta có θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Lưu ý thuộc tính đầu tiên này chỉ cho chúng ta biết rằng tỷ lệ dương tính giả được kiểm soát tại bằng cách từ chối khi giá trị p nhỏ hơn và thuộc tính thứ hai cho chúng ta (đưa ra một giả định bổ sung) rằng các giá trị p được phân phối đồng đều dưới giá trị null giả thuyết.uu

Bằng chứng là như sau:

  1. Đặt và giả sử cho tất cả . Sau đó, theo định nghĩa của , chúng ta có cho tất cả . Theo tính đơn điệu và giả định, theo sau cho tất cả . Để cho , nó theo .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Đặt và giả sử rằng cho tất cả . Sau đó và theo tính đơn điệu, nó theo sau đó . Xem xét (1), theo sau . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Lưu ý rằng giả định trong (2) không giữ khi thống kê kiểm tra rời rạc ngay cả khi giả thuyết null đơn giản hơn là tổng hợp. Ví dụ: với và . Tức là, lật một đồng xu mười lần và kiểm tra xem liệu nó có công bằng so với thiên vị đối với người đứng đầu hay không (được mã hóa thành 1). Xác suất nhìn thấy 10 đầu trong 10 lần lật đồng xu công bằng là (1/2) ^ 10 = 1/1024. Xác suất nhìn thấy 9 hoặc 10 đầu trong 10 lần tung đồng xu công bằng là 11/1024. Đối với mọi hoàn toàn trong khoảng từ 1/1024 đến 11/1024, bạn sẽ từ chối null nếu , nhưng chúng tôi không có cho các giá trị đó của khi nàoXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Thay vào đó cho như vậy . Pr(XRα)=1/1024α


Nên làm rõ rằng tính tổng quát được cung cấp ở Lehmann và Romano là dành cho các khu vực từ chối chung. Tuy nhiên, bạn chỉ có giá trị p "hợp lệ" cho null tổng hợp và thống kê kiểm tra không liên tục.
Adam

-12

Nếu các giá trị p được phân phối đồng đều theo H0, điều đó có nghĩa là có khả năng thấy giá trị p là 0,05 như giá trị p là 0,80, nhưng điều này không đúng, vì nó ít có khả năng quan sát p- giá trị 0,05 so với giá trị p là 0,80, vì đó chính xác là định nghĩa của phân phối chuẩn mà từ đó giá trị p được lấy. Theo định nghĩa, sẽ có nhiều mẫu rơi vào phạm vi của quy tắc hơn bên ngoài nó. Do đó, nhiều khả năng tìm thấy giá trị p lớn hơn so với giá trị nhỏ hơn.


3
-1. Điều này là hoàn toàn sai. Tôi tự hỏi ai đã ủng hộ điều này. Giá trị P dưới điểm H0 được phân bố đồng đều.
amip

1
-1. Điều này thậm chí không đủ ý nghĩa để được gọi là sai: "phạm vi của tính quy tắc" là vô nghĩa và giá trị p vốn không liên quan gì đến phân phối bình thường ở nơi đầu tiên.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.