Vâng, có một số mối quan hệ đơn giản giữa so sánh khoảng tin cậy và kiểm tra giả thuyết trong một loạt các cài đặt thực tế. Tuy nhiên, ngoài việc xác minh các quy trình CI và kiểm tra t phù hợp với dữ liệu của chúng tôi, chúng tôi phải kiểm tra xem kích thước mẫu không quá khác nhau và hai bộ có độ lệch chuẩn tương tự nhau. Chúng ta cũng không nên cố gắng lấy các giá trị p có độ chính xác cao từ việc so sánh hai khoảng tin cậy, nhưng nên vui mừng khi phát triển các xấp xỉ hiệu quả.
Khi cố gắng dung hòa hai câu trả lời đã được đưa ra (bởi @John và @Brett), điều này giúp rõ ràng về mặt toán học. Một công thức cho khoảng tin cậy hai mặt đối xứng thích hợp cho việc đặt câu hỏi này là
CI=m±tα(n)sn−−√
nơi m là giá trị trung bình mẫu của n quan sát độc lập, s là độ lệch chuẩn mẫu, 2α là kích thước mong muốn thử nghiệm (tối đa tỷ lệ dương tính giả), và tα(n) là trên 1−α phần trăm của sự phân bố t Student với n−1 độ tự do. (Sự sai lệch nhỏ so với ký hiệu thông thường này giúp đơn giản hóa việc giải thích bằng cách làm giảm bất kỳ nhu cầu nào để phân biệt n vs n−1 , dù sao đi nữa, điều này sẽ không quan trọng.)
Sử dụng các chỉ 1 và 2 để phân biệt hai bộ dữ liệu độc lập để so sánh, với 1 tương ứng với lớn hơn của hai phương tiện, một khoảng không vượt quá các khoảng tin cậy được biểu thị bằng bất đẳng thức (giới hạn tin cậy thấp hơn 1) > (giới hạn tin cậy trên 2 ); viz ,
m1−tα(n1)s1n1−−√>m2+tα(n2)s2n2−−√.
Điều này có thể được thực hiện để trông giống như thống kê t của bài kiểm tra giả thuyết tương ứng (để so sánh hai phương tiện) với các thao tác đại số đơn giản, mang lại
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
Phía bên tay trái là số liệu thống kê được sử dụng trong bài kiểm tra giả thuyết; nó thường được so sánh với phần trăm phân phối của Student t với n1+n2 bậc tự do: nghĩa là, với tα(n1+n2) . Phía bên tay phải là trung bình có trọng số sai lệch của phần trăm phân phối t ban đầu.
Các phân tích cho đến nay biện minh cho câu trả lời của @Brett: dường như không có mối quan hệ đơn giản nào. Tuy nhiên, hãy thăm dò thêm. Tôi được truyền cảm hứng để làm như vậy bởi vì, theo trực giác, một sự không chồng chéo của khoảng tin cậy nên nói điều gì đó!
Đầu tiên, lưu ý rằng hình thức kiểm tra giả thuyết này chỉ có giá trị khi chúng ta mong đợi s1 và s2 ít nhất bằng nhau. (Nếu không chúng ta phải đối mặt với khét tiếng vấn đề Behrens-Fisher và sự phức tạp của nó.) Sau khi kiểm tra sự bình đẳng tương đối của các si , sau đó chúng tôi có thể tạo ra một đơn giản hóa gần đúng theo hình thức
m1−m2s1/n1+1/n2−−−−−−−−−−√>n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√.
Ở đây, s≈s1≈s2 . Trên thực tế, chúng ta không nên mong đợi sự so sánh không chính thức này về giới hạn tin cậy có cùng kích thước với α . Câu hỏi của chúng tôi sau đó là liệu có tồn tại một α′ sao cho phía bên tay phải (ít nhất là xấp xỉ) bằng với thống kê t chính xác. Cụ thể, với những gì α′ thì đó là trường hợp
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
Nó chỉ ra rằng đối với cỡ mẫu bằng nhau, α và α′ được kết nối (độ chính xác khá cao) bởi một định luật hàm mũ. Ví dụ, đây là một âm mưu log-log của hai cho các trường hợp n1=n2=2 (đường màu xanh thấp nhất), n1=n2=5 (giữa đường màu đỏ), n1=n2=∞ ( dòng vàng cao nhất). Đường đứt nét màu xanh lá cây ở giữa là một xấp xỉ được mô tả dưới đây. Sự thẳng thắn của những đường cong này tin vào một định luật sức mạnh. Nó thay đổi với n=n1=n2 , nhưng không nhiều.
Câu trả lời không phụ thuộc vào tập {n1,n2} , nhưng thật tự nhiên khi tự hỏi nó thực sự thay đổi bao nhiêu với những thay đổi trong kích thước mẫu. Đặc biệt, chúng ta có thể hy vọng rằng cho vừa phải để kích thước mẫu lớn (có thể n1≥10,n2≥10 hoặc gần đó) cỡ mẫu làm cho sự khác biệt nhỏ. Trong trường hợp này, chúng ta có thể phát triển một cách định lượng để liên kết α′ với α .
Cách tiếp cận này hóa ra để làm việc với điều kiện kích thước mẫu không quá khác biệt với nhau. Theo tinh thần của sự đơn giản, tôi sẽ báo cáo một công thức omnibus để tính toán kích thước kiểm tra α′ tương ứng với kích thước khoảng tin cậy α . Nó là
α′≈eα1.91;
đó là,
α′≈exp(1+1.91log(α)).
Công thức này hoạt động hợp lý tốt trong các tình huống phổ biến sau:
Cả hai kích thước mẫu đều gần nhau, n1≈n2 và α không quá cực trị ( α>.001 hoặc hơn).
Một cỡ mẫu nằm trong khoảng ba lần kích thước khác và nhỏ nhất không quá nhỏ (khoảng, lớn hơn 10 ) và một lần nữa, α không quá cực đoan.
Một cỡ mẫu trong vòng ba lần so với kích thước kia và α>.02 trở lên.
n1=n2=2n1=n2=5n1=n2=∞α
Điều này là quá đủ tốt để đánh mắt một loạt các khoảng tin cậy.
2α2eα1.91
2α
2 α 2 α'
0,1 0,02
0,05 0,005
0,01 0,0002
0,005 0,006006
Ví dụ: khi một cặp 95% TCTD hai mặt (2 α = 0,05) đối với các mẫu có kích thước xấp xỉ bằng nhau không trùng nhau, chúng ta nên sử dụng các phương tiện để khác biệt đáng kể, p < .005. Giá trị p chính xác (đối với kích thước mẫu bằng nhaun) thực sự nằm giữa 0,0037 (n = 2) và 0,0056 (n = ∞).
Kết quả này biện minh (và tôi hy vọng sẽ cải thiện) câu trả lời của @John. Do đó, mặc dù các câu trả lời trước có vẻ mâu thuẫn, cả hai đều (theo cách riêng của họ) đúng.