Mối liên quan giữa khoảng tin cậy và giả thuyết thống kê kiểm tra cho kiểm tra t

31

Người ta biết rằng khoảng tin cậy và giả thuyết thống kê thử nghiệm có liên quan chặt chẽ với nhau. Các câu hỏi của tôi tập trung vào việc so sánh các phương tiện cho hai nhóm dựa trên một biến số. Giả sử rằng giả thuyết đó được kiểm tra bằng thử nghiệm t. Mặt khác, người ta có thể tính khoảng tin cậy cho phương tiện của cả hai nhóm. Có bất kỳ mối quan hệ nào giữa sự chồng chéo của các khoảng tin cậy và sự bác bỏ giả thuyết khống có nghĩa là bằng nhau (có lợi cho phương án thay thế có nghĩa là khác nhau - thử nghiệm hai mặt)? Ví dụ, một bài kiểm tra có thể bác bỏ giả thuyết khống nếu các khoảng tin cậy không trùng nhau.

hypothesis-testing confidence-interval

— Lan
nguồn

31

Vâng, có một số mối quan hệ đơn giản giữa so sánh khoảng tin cậy và kiểm tra giả thuyết trong một loạt các cài đặt thực tế. Tuy nhiên, ngoài việc xác minh các quy trình CI và kiểm tra t phù hợp với dữ liệu của chúng tôi, chúng tôi phải kiểm tra xem kích thước mẫu không quá khác nhau và hai bộ có độ lệch chuẩn tương tự nhau. Chúng ta cũng không nên cố gắng lấy các giá trị p có độ chính xác cao từ việc so sánh hai khoảng tin cậy, nhưng nên vui mừng khi phát triển các xấp xỉ hiệu quả.

Khi cố gắng dung hòa hai câu trả lời đã được đưa ra (bởi @John và @Brett), điều này giúp rõ ràng về mặt toán học. Một công thức cho khoảng tin cậy hai mặt đối xứng thích hợp cho việc đặt câu hỏi này là

CI = m \pm \frac{t_{α} (n) s}{\sqrt{n}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

nơi $m$ là giá trị trung bình mẫu của $n$ quan sát độc lập, $s$ là độ lệch chuẩn mẫu, $2\alpha$ là kích thước mong muốn thử nghiệm (tối đa tỷ lệ dương tính giả), và $t_\alpha(n)$ là trên $1-\alpha$ phần trăm của sự phân bố t Student với $n-1$ độ tự do. (Sự sai lệch nhỏ so với ký hiệu thông thường này giúp đơn giản hóa việc giải thích bằng cách làm giảm bất kỳ nhu cầu nào để phân biệt $n$ vs $n-1$ , dù sao đi nữa, điều này sẽ không quan trọng.)

Sử dụng các chỉ $1$ và $2$ để phân biệt hai bộ dữ liệu độc lập để so sánh, với $1$ tương ứng với lớn hơn của hai phương tiện, một khoảng không vượt quá các khoảng tin cậy được biểu thị bằng bất đẳng thức (giới hạn tin cậy thấp hơn 1) $\gt$ (giới hạn tin cậy trên 2 ); viz ,

m_{1} - \frac{t_{α} (n_{1}) s_{1}}{\sqrt{n_{1}}} > m_{2} + \frac{t_{α} (n_{2}) s_{2}}{\sqrt{n_{2}}} .

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

Điều này có thể được thực hiện để trông giống như thống kê t của bài kiểm tra giả thuyết tương ứng (để so sánh hai phương tiện) với các thao tác đại số đơn giản, mang lại

\frac{m_{1} - m_{2}}{\sqrt{s_{1}^{2} / n_{1} + s_{2}^{2} / n_{2}}} > \frac{s_{1} \sqrt{n_{2}} t_{α} (n_{1}) + s_{2} \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} s_{2}^{2} + n_{2} s_{1}^{2}}} .

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

Phía bên tay trái là số liệu thống kê được sử dụng trong bài kiểm tra giả thuyết; nó thường được so sánh với phần trăm phân phối của Student t với $n_1+n_2$ bậc tự do: nghĩa là, với $t_\alpha(n_1+n_2)$ . Phía bên tay phải là trung bình có trọng số sai lệch của phần trăm phân phối t ban đầu.

Các phân tích cho đến nay biện minh cho câu trả lời của @Brett: dường như không có mối quan hệ đơn giản nào. Tuy nhiên, hãy thăm dò thêm. Tôi được truyền cảm hứng để làm như vậy bởi vì, theo trực giác, một sự không chồng chéo của khoảng tin cậy nên nói điều gì đó!

Đầu tiên, lưu ý rằng hình thức kiểm tra giả thuyết này chỉ có giá trị khi chúng ta mong đợi $s_1$ và $s_2$ ít nhất bằng nhau. (Nếu không chúng ta phải đối mặt với khét tiếng vấn đề Behrens-Fisher và sự phức tạp của nó.) Sau khi kiểm tra sự bình đẳng tương đối của các $s_i$ , sau đó chúng tôi có thể tạo ra một đơn giản hóa gần đúng theo hình thức

\frac{m_{1} - m_{2}}{s \sqrt{1 / n_{1} + 1 / n_{2}}} > \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} .

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

Ở đây, $s \approx s_1 \approx s_2$ . Trên thực tế, chúng ta không nên mong đợi sự so sánh không chính thức này về giới hạn tin cậy có cùng kích thước với $\alpha$ . Câu hỏi của chúng tôi sau đó là liệu có tồn tại một $\alpha'$ sao cho phía bên tay phải (ít nhất là xấp xỉ) bằng với thống kê t chính xác. Cụ thể, với những gì $\alpha'$ thì đó là trường hợp

t_{α^{'}} (n_{1} + n_{2}) = \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

Nó chỉ ra rằng đối với cỡ mẫu bằng nhau, $\alpha$ và $\alpha'$ được kết nối (độ chính xác khá cao) bởi một định luật hàm mũ. Ví dụ, đây là một âm mưu log-log của hai cho các trường hợp $n_1=n_2=2$ (đường màu xanh thấp nhất), $n_1=n_2=5$ (giữa đường màu đỏ), $n_1=n_2=\infty$ ( dòng vàng cao nhất). Đường đứt nét màu xanh lá cây ở giữa là một xấp xỉ được mô tả dưới đây. Sự thẳng thắn của những đường cong này tin vào một định luật sức mạnh. Nó thay đổi với $n=n_1=n_2$ , nhưng không nhiều.

Plot 1

Câu trả lời không phụ thuộc vào tập $\{n_1, n_2\}$ , nhưng thật tự nhiên khi tự hỏi nó thực sự thay đổi bao nhiêu với những thay đổi trong kích thước mẫu. Đặc biệt, chúng ta có thể hy vọng rằng cho vừa phải để kích thước mẫu lớn (có thể $n_1 \ge 10, n_2 \ge 10$ hoặc gần đó) cỡ mẫu làm cho sự khác biệt nhỏ. Trong trường hợp này, chúng ta có thể phát triển một cách định lượng để liên kết $\alpha'$ với $\alpha$ .

Cách tiếp cận này hóa ra để làm việc với điều kiện kích thước mẫu không quá khác biệt với nhau. Theo tinh thần của sự đơn giản, tôi sẽ báo cáo một công thức omnibus để tính toán kích thước kiểm tra $\alpha'$ tương ứng với kích thước khoảng tin cậy $\alpha$ . Nó là

α^{'} \approx e α^{1.91};

$\alpha' \approx e \alpha^{1.91};$

đó là,

α^{'} \approx \exp (1 + 1.91 \log (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

Công thức này hoạt động hợp lý tốt trong các tình huống phổ biến sau:

Cả hai kích thước mẫu đều gần nhau, $n_1 \approx n_2$ và $\alpha$ không quá cực trị ( $\alpha \gt .001$ hoặc hơn).
Một cỡ mẫu nằm trong khoảng ba lần kích thước khác và nhỏ nhất không quá nhỏ (khoảng, lớn hơn $10$ ) và một lần nữa, $\alpha$ không quá cực đoan.
Một cỡ mẫu trong vòng ba lần so với kích thước kia và $\alpha \gt .02$ trở lên.

$n_1=n_2=2$ $n_1=n_2=5$ $n_1=n_2=\infty$ $\alpha$

Plot 2

Điều này là quá đủ tốt để đánh mắt một loạt các khoảng tin cậy.

$2\alpha$ $2e \alpha^{1.91}$

$2\alpha$

$2\alpha$ $2\alpha'$
0,1 0,02

0,05 0,005

0,01 0,0002

0,005 0,006006

Ví dụ: khi một cặp 95% TCTD hai mặt ( $2\alpha=.05$ ) đối với các mẫu có kích thước xấp xỉ bằng nhau không trùng nhau, chúng ta nên sử dụng các phương tiện để khác biệt đáng kể, $p \lt .005$ . Giá trị p chính xác (đối với kích thước mẫu bằng nhau $n$ ) thực sự nằm giữa $.0037$ ( $n=2$ ) và $.0056$ ( $n=\infty$ ).

Kết quả này biện minh (và tôi hy vọng sẽ cải thiện) câu trả lời của @John. Do đó, mặc dù các câu trả lời trước có vẻ mâu thuẫn, cả hai đều (theo cách riêng của họ) đúng.

— whuber
nguồn

7

Không, không phải là một đơn giản ít nhất.

Tuy nhiên, có một sự tương ứng chính xác giữa phép thử t về sự khác biệt giữa hai phương tiện và khoảng tin cậy cho sự khác biệt giữa hai phương tiện.

Nếu khoảng tin cậy cho chênh lệch giữa hai phương tiện chứa 0, kiểm tra t cho chênh lệch đó sẽ không từ chối null ở cùng mức độ tin cậy. Tương tự như vậy nếu khoảng tin cậy không chứa 0, kiểm tra t sẽ từ chối null.

This is not the same as overlap between confidence intervals for each of the two means.

— Brett
nguồn

The reply by @John, which although at present is not quite right in the details, correctly points out that yes, you can relate overlaps of CIs to test p-values. The relationship is not any more complex than the t-test itself. This has the appearance of contradicting your primary conclusion as stated in the first line. How would you resolve this difference?

— whuber

I don't think they are contradictory. I can add some caveats. But, in the general sense, without additional assumptions and knowledge about parameters outside of the presentation of the interval (the variance, the sample size) the response stands as is. No, not a simple one at least.

— Brett

5

Under typical assumptions of equal variance, yes, there is a relationship. If the bars overlap by less than the length of one bar * sqrt(2) then a t-test would find them to be significantly different at alpha = 0.05. If the ends of the bars just barely touch then a difference would be found at 0.01. If the confidence intervals for the groups are not equal one typically takes the average and applies the same rule.

Ngoài ra, nếu độ rộng của khoảng tin cậy xung quanh một trong các phương tiện là w thì sự khác biệt có ý nghĩa nhỏ nhất giữa hai giá trị là w * sqrt (2). Điều này thật đơn giản khi bạn nghĩ về mẫu số trong các nhóm độc lập t-test, sqrt (2 * MSE / n) và yếu tố cho CI, sqrt (MSE / n).

(Giả định 95% TCTD)

Có một bài viết đơn giản về suy luận từ các khoảng tin cậy xung quanh các phương tiện độc lập ở đây . Nó sẽ trả lời câu hỏi này và nhiều câu hỏi liên quan khác mà bạn có thể có.

Cumming, G., & Finch, S. (2005, tháng 3). Suy luận bằng mắt: khoảng tin cậy và cách đọc hình ảnh của dữ liệu. Nhà tâm lý học người Mỹ , 60 (2), 170-180.

— John
nguồn

2

I believe you need also to assume the two groups have the same sizes.

— whuber

roughly, yes...

— John