Là bác bỏ giả thuyết sử dụng giá trị p tương đương với giả thuyết không thuộc về khoảng tin cậy?


29

Trong khi chính thức rút ra khoảng tin cậy của một ước tính, tôi đã kết thúc với một công thức rất giống với cách tính giá trị .p

Do đó, câu hỏi: chúng có chính thức tương đương không? Tức là đang từ chối một giả thuyết với giá trị tới hạn tương đương với không thuộc khoảng tin cậy với giá trị tới hạn ?H0=0α0α


2
@f coppens: có, nếu hai bài kiểm tra được sử dụng, với các số liệu thống kê khác nhau, bạn sẽ có hai khoảng tin cậy khác nhau. Nhưng tôi nghĩ OP đã khám phá ra một thực tế cơ bản: cả khoảng tin cậy và giá trị p đều thu được từ phân phối của cùng một thống kê, vì vậy cả hai đều có thể được sử dụng để quyết định từ chối giả thuyết khống hay không.
StijnDeVuyst

1
@StijnDeVuyst: Khoảng Clopper / Pearon cho một tỷ lệ và khoảng Sterne cho một tỷ lệ đều xuất phát từ phân phối Binomial với cùng kích thước (p không xác định được vì chúng tìm thấy khoảng tin cậy cho p). Sự khác biệt giữa Clopper / Pearson và Sterne là do sự không đối xứng của mật độ Binomial. Khoảng Sterne cố gắng giảm thiểu độ rộng của khoảng và Clopper_pearson cố gắng giữ đối xứng (nhưng do độ lệch của Binomial chỉ có thể tìm thấy xấp xỉ).

6
Không nói chung, không. Xem xét các trường hợp trong đó độ rộng của khoảng là một hàm của giá trị tham số ước tính, trong khi đối với phép thử, độ rộng của khoảng là một hàm của giá trị giả định. Một ví dụ rõ ràng sẽ là kiểm tra nhị thức p. Hãy sử dụng khoảng bình thường. để đơn giản (mặc dù hình thức lập luận không dựa vào nó). Xét n = 10 và null của p = 0,5. Tưởng tượng quan sát 2 đầu; null không bị từ chối (vì "2" nằm trong khoảng 95% khoảng 0,5) nhưng CI cho p không bao gồm 0,5 (vì CI hẹp hơn chiều rộng khoảng dưới null.
Glen_b -Reinstate Monica

4
Hoặc nếu bạn cần nó đủ lớn để mức xấp xỉ bình thường là tốt, hãy thử 469 đầu trong 1000 lần tung, với H0 p = 0,5; một lần nữa, 95% CI cho p không bao gồm 0,5 nhưng thử nghiệm 5% không từ chối, bởi vì độ rộng khoảng tương ứng trong H0 rộng hơn so với thay thế (đó là những gì bạn thực hiện CI từ đó).
Glen_b -Reinstate Monica

4
@Glen_b: Có vẻ như thống kê câu hỏi mới hơn này.stackexchange.com/questions/173005 cung cấp một ví dụ về chính xác tình huống bạn đang mô tả ở đây.
amip nói rằng Phục hồi lại

Câu trả lời:


32

Có và không.

Đầu tiên là "có"

Những gì bạn đã quan sát là khi một phép thử và khoảng tin cậy dựa trên cùng một thống kê, có một sự tương đương giữa chúng: chúng ta có thể hiểu giá trị là giá trị nhỏ nhất của mà giá trị null của tham số sẽ được bao gồm trong khoảng tin cậy .alpha 1 - αpα1α

Đặt là một tham số không xác định trong không gian tham số và để mẫu là sự hiện thực hóa biến ngẫu nhiên . Để đơn giản, hãy xác định khoảng tin cậy là một khoảng ngẫu nhiên sao cho xác suất bao phủ của nó (Bạn có thể xem xét tương tự các khoảng tổng quát hơn, trong đó xác suất bao phủ được giới hạn bởi hoặc xấp xỉ bằng . Lý do là tương tự.)q R x = ( x 1 , ... , x n ) X nR n X = ( X 1 , ... , X n ) Tôi α ( X ) P θ ( θ I α ( X ) ) = 1 - αθΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X)

Pθ(θIα(X))=1αfor all α(0,1).
1α

Hãy xem xét một thử nghiệm hai mặt của giả thuyết không có điểm so với thay thế . Đặt biểu thị giá trị p của bài kiểm tra. Đối với mọi , bị từ chối ở cấp nếu . Vùng từ chối cấp độ là tập hợp dẫn đến sự từ chối : H 1 ( θ 0 ) : θ θ 0 λ ( θ 0 , x ) alpha ( 0 , 1H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Bây giờ, hãy xem xét một nhóm các thử nghiệm hai mặt với p-value , cho . Đối với một gia đình như vậy, chúng ta có thể xác định vùng từ chối đảo ngượcλ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Đối với mọi cố định , sẽ bị từ chối nếu , xảy ra khi và chỉ khi , nghĩa là, Nếu thử nghiệm dựa trên thống kê kiểm tra với phân phối null hoàn toàn được chỉ định hoàn toàn, thì trong . Sau đó Vì phương trình này đúng với mọiθ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θvà vì phương trình trên có nghĩa là theo sau là tập ngẫu nhiên luôn bao gồm tham số thực với xác suất . Do đó, để biểu thị phần bù của , với tất cả chúng ta có có nghĩa là phần bù của vùng loại bỏ đảo ngược là khoảng tin cậy cho .Q α ( x ) θ 0 α Q C α ( x ) Q α ( x ) θ 0q
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

Một minh họa được đưa ra dưới đây, hiển thị các vùng loại bỏ và khoảng tin cậy tương ứng với -test cho một giá trị trung bình bình thường, đối với các phương tiện null khác nhau và các mẫu khác nhau có nghĩa là , với . bị từ chối nếu ở trong vùng màu xám nhạt. Hiển thị màu xám đậm là vùng loại bỏ và khoảng tin cậy . θ ˉ x σ = 1 H 0 ( θ ) ( ˉ x , θ ) R 0,05 ( - 0,9 ) = ( - zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)nhập mô tả hình ảnh ở đây

(Phần lớn được lấy từ luận án tiến sĩ của tôi .)

Bây giờ cho "không"

Ở trên tôi đã mô tả cách tiêu chuẩn để xây dựng các khoảng tin cậy. Trong phương pháp này, chúng tôi sử dụng một số thống kê liên quan đến tham số chưa biết để xây dựng khoảng. Ngoài ra còn có những khoảng thời gian dựa trên các thuật toán giảm thiểu, mà tìm cách giảm thiểu độ dài của tình trạng khoảng cách về giá trị của . Thông thường, khoảng thời gian như vậy không tương ứng với một bài kiểm tra.θX

Hiện tượng này có liên quan đến các vấn đề liên quan đến các khoảng như vậy không được lồng nhau, có nghĩa là khoảng 94% có thể ngắn hơn khoảng 95%. Để biết thêm về điều này, xem Phần 2.5 của bài báo gần đây của tôi (sẽ xuất hiện ở Bernoulli).

Và một "không" thứ hai

Trong một số vấn đề, khoảng tin cậy tiêu chuẩn không dựa trên cùng một thống kê như thử nghiệm tiêu chuẩn (như Michael Fay đã thảo luận trong bài viết này ). Trong những trường hợp đó, khoảng tin cậy và kiểm tra có thể không cho kết quả tương tự. Ví dụ: có thể bị từ chối bởi thử nghiệm mặc dù 0 được bao gồm trong khoảng tin cậy. Điều này không mâu thuẫn với "có" ở trên, vì các số liệu thống kê khác nhau được sử dụng.θ0=0

Và đôi khi "có" không phải là một điều tốt

Như được chỉ ra bởi f coppens trong một bình luận, đôi khi các khoảng thời gian và các bài kiểm tra có một số mục tiêu mâu thuẫn. Chúng tôi muốn các khoảng thời gian ngắn và thử nghiệm với công suất cao, nhưng khoảng thời gian ngắn nhất không phải lúc nào cũng tương ứng với thử nghiệm có công suất cao nhất. Đối với một số ví dụ về điều này, hãy xem bài viết này (phân phối bình thường nhiều biến số) hoặc này (phân phối theo cấp số nhân) hoặc Phần 4 của luận án của tôi .

Bayes cũng có thể nói cả có và không

Vài năm trước, tôi đã đăng một câu hỏi ở đây về việc liệu sự tương đương giữa các khoảng thời gian thử nghiệm có tồn tại trong thống kê Bayes hay không. Câu trả lời ngắn gọn là sử dụng thử nghiệm giả thuyết Bayes tiêu chuẩn, câu trả lời là "không". Bằng cách cải tổ vấn đề kiểm tra một chút, câu trả lời có thể là "có". (Nỗ lực trả lời câu hỏi của tôi cuối cùng đã biến thành một tờ giấy !)


2
Câu trả lời hay (+1) và (bạn thực hiện một phần điều đó) có thể tốt khi chỉ ra thực tế là đôi khi khoảng tin cậy và kiểm tra giả thuyết có (có khả năng) các mục tiêu mâu thuẫn: một người cố gắng tìm khoảng tin cậy 'càng nhỏ càng tốt' trong khi để kiểm tra giả thuyết, người ta cố gắng tìm một khu vực quan trọng "mạnh nhất có thể".

@fcoppens: Cảm ơn lời đề nghị! Tôi đã cập nhật câu trả lời của mình với một số dòng về điều này.
MånsT

Luận văn NIce! Bạn đã làm việc trên Sterne là tốt?

@fcoppens: Vâng, tôi đã thực hiện một số công việc trong khoảng thời gian Sterne, chủ yếu trong bài viết này
MånsT

7
@amoeba: Thật ra, tôi nghĩ rằng "không" là "không" thứ hai của tôi. Theo như tôi có thể nói, anh ta căn cứ vào khoảng tin cậy trên thống kê và bài kiểm tra trên thống kê . Lưu ý sự khác biệt trong mẫu số. Bạn có thể xây dựng các bài kiểm tra và khoảng thời gian bằng cách sử dụng một trong hai thống kê và miễn là bạn sử dụng cùng một thống kê cho cả hai, sẽ không có sự khác biệt. T2=(p-p)/T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n
MånsT

2

Khi xem xét một tham số duy nhất, có thể kiểm tra về giá trị của tham số và khoảng tin cậy "không khớp" tùy thuộc vào cách chúng được xây dựng. Cụ thể, một bài kiểm tra giả thuyết là một mức -test, nếu nó bác bỏ giả thuyết null thì tỷ lệ của thời điểm khi giả thuyết null là đúng. Vì lý do đó, người ta có thể sử dụng các ước tính của các tham số mô hình (ví dụ: phương sai) chỉ có giá trị theo giả thuyết null. Nếu sau đó người ta cố gắng xây dựng một CI bằng cách đảo ngược thử nghiệm này, phạm vi bảo hiểm có thể không hoàn toàn đúng theo giả thuyết thay thế. Vì lý do đó, người ta thường sẽ xây dựng một khoảng tin cậy khác nhau để phạm vi bảo hiểm cũng nằm ngay dưới phương án, điều này có thể dẫn đến sự không phù hợp (thường rất nhỏ).alphaαα

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.