Có và không.
Đầu tiên là "có"
Những gì bạn đã quan sát là khi một phép thử và khoảng tin cậy dựa trên cùng một thống kê, có một sự tương đương giữa chúng: chúng ta có thể hiểu giá trị là giá trị nhỏ nhất của mà giá trị null của tham số sẽ được bao gồm trong khoảng tin cậy .alpha 1 - αpα1−α
Đặt là một tham số không xác định trong không gian tham số và để mẫu là sự hiện thực hóa biến ngẫu nhiên . Để đơn giản, hãy xác định khoảng tin cậy là một khoảng ngẫu nhiên sao cho xác suất bao phủ của nó
(Bạn có thể xem xét tương tự các khoảng tổng quát hơn, trong đó xác suất bao phủ được giới hạn bởi hoặc xấp xỉ bằng . Lý do là tương tự.)q ⊆ R x = ( x 1 , ... , x n ) ∈ X n ⊆ R n X = ( X 1 , ... , X n ) Tôi α ( X ) P θ ( θ ∈ I α ( X ) ) = 1 - αθΘ⊆Rx=(x1,…,xn)∈Xn⊆RnX=(X1,…,Xn)Iα(X)
Pθ(θ∈Iα(X))=1−αfor all α∈(0,1).
1−α
Hãy xem xét một thử nghiệm hai mặt của giả thuyết không có điểm so với thay thế . Đặt biểu thị giá trị p của bài kiểm tra. Đối với mọi , bị từ chối ở cấp nếu . Vùng từ chối cấp độ là tập hợp dẫn đến sự từ chối :
H 1 ( θ 0 ) : θ ≠ θ 0 λ ( θ 0 , x ) alpha ∈ ( 0 , 1H0(θ0):θ=θ0H1(θ0):θ≠θ0λ(θ0,x)α∈(0,1)H0(θ0)αλ(θ0,x)≤αα xH0(θ0)
Rα(θ0)={x∈Rn:λ(θ0,x)≤α}.
Bây giờ, hãy xem xét một nhóm các thử nghiệm hai mặt với p-value , cho . Đối với một gia đình như vậy, chúng ta có thể xác định vùng từ chối đảo ngượcλ(θ,x)θ∈Θ
Qα(x)={θ∈Θ:λ(θ,x)≤α}.
Đối với mọi cố định , sẽ bị từ chối nếu , xảy ra khi và chỉ khi , nghĩa là,
Nếu thử nghiệm dựa trên thống kê kiểm tra với phân phối null hoàn toàn được chỉ định hoàn toàn, thì trong . Sau đó
Vì phương trình này đúng với mọiθ0H0(θ0)x∈Rα(θ0)θ0∈Qα(x)
x∈Rα(θ0)⇔θ0∈Qα(x).
λ(θ0,X)∼U(0,1)H0(θ0)Pθ0(X∈Rα(θ0))=Pθ0(λ(θ0,X)≤α)=α.
θ0∈Θvà vì phương trình trên có nghĩa là theo sau là tập ngẫu nhiên luôn bao gồm tham số thực với xác suất . Do đó, để biểu thị phần bù của , với tất cả chúng ta có
có nghĩa là phần bù của vùng loại bỏ đảo ngược là khoảng tin cậy cho .
Q α ( x ) θ 0 α Q C α ( x ) Q α ( x ) θ 0 ∈ qPθ0(X∈Rα(θ0))=Pθ0(θ0∈Qα(X)),
Qα(x)θ0αQCα(x)Qα(x)θ0∈ΘPθ0(θ0∈QCα(X))=1−α,
1−αθ
Một minh họa được đưa ra dưới đây, hiển thị các vùng loại bỏ và khoảng tin cậy tương ứng với -test cho một giá trị trung bình bình thường, đối với các phương tiện null khác nhau và các mẫu khác nhau có nghĩa là , với . bị từ chối nếu ở trong vùng màu xám nhạt. Hiển thị màu xám đậm là vùng loại bỏ và khoảng tin cậy .
θ ˉ x σ = 1 H 0 ( θ ) ( ˉ x , θ ) R 0,05 ( - 0,9 ) = ( - ∞zθx¯σ=1H0(θ)(x¯,θ)R0.05(−0.9)=(−∞,−1.52)∪(−0.281,∞)I0.05(1/2)=QC0.05(1/2)=(−0.120,1.120)
(Phần lớn được lấy từ luận án tiến sĩ của tôi .)
Bây giờ cho "không"
Ở trên tôi đã mô tả cách tiêu chuẩn để xây dựng các khoảng tin cậy. Trong phương pháp này, chúng tôi sử dụng một số thống kê liên quan đến tham số chưa biết để xây dựng khoảng. Ngoài ra còn có những khoảng thời gian dựa trên các thuật toán giảm thiểu, mà tìm cách giảm thiểu độ dài của tình trạng khoảng cách về giá trị của . Thông thường, khoảng thời gian như vậy không tương ứng với một bài kiểm tra.θX
Hiện tượng này có liên quan đến các vấn đề liên quan đến các khoảng như vậy không được lồng nhau, có nghĩa là khoảng 94% có thể ngắn hơn khoảng 95%. Để biết thêm về điều này, xem Phần 2.5 của bài báo gần đây của tôi (sẽ xuất hiện ở Bernoulli).
Và một "không" thứ hai
Trong một số vấn đề, khoảng tin cậy tiêu chuẩn không dựa trên cùng một thống kê như thử nghiệm tiêu chuẩn (như Michael Fay đã thảo luận trong bài viết này ). Trong những trường hợp đó, khoảng tin cậy và kiểm tra có thể không cho kết quả tương tự. Ví dụ: có thể bị từ chối bởi thử nghiệm mặc dù 0 được bao gồm trong khoảng tin cậy. Điều này không mâu thuẫn với "có" ở trên, vì các số liệu thống kê khác nhau được sử dụng.θ0=0
Và đôi khi "có" không phải là một điều tốt
Như được chỉ ra bởi f coppens trong một bình luận, đôi khi các khoảng thời gian và các bài kiểm tra có một số mục tiêu mâu thuẫn. Chúng tôi muốn các khoảng thời gian ngắn và thử nghiệm với công suất cao, nhưng khoảng thời gian ngắn nhất không phải lúc nào cũng tương ứng với thử nghiệm có công suất cao nhất. Đối với một số ví dụ về điều này, hãy xem bài viết này (phân phối bình thường nhiều biến số) hoặc này (phân phối theo cấp số nhân) hoặc Phần 4 của luận án của tôi .
Bayes cũng có thể nói cả có và không
Vài năm trước, tôi đã đăng một câu hỏi ở đây về việc liệu sự tương đương giữa các khoảng thời gian thử nghiệm có tồn tại trong thống kê Bayes hay không. Câu trả lời ngắn gọn là sử dụng thử nghiệm giả thuyết Bayes tiêu chuẩn, câu trả lời là "không". Bằng cách cải tổ vấn đề kiểm tra một chút, câu trả lời có thể là "có". (Nỗ lực trả lời câu hỏi của tôi cuối cùng đã biến thành một tờ giấy !)