Nếu giá trị p chính xác là 1 (1.0000000), thì giới hạn khoảng tin cậy là gì để hỗ trợ giả thuyết null là đúng? [đóng cửa]


12

Đây hoàn toàn là một câu hỏi giả định. Một tuyên bố rất phổ biến là H0 không bao giờ đúng, đó chỉ là vấn đề kích thước mẫu.

Chúng ta hãy giả sử rằng thật có sự khác biệt hoàn toàn không có thể đo lường được giữa hai phương tiện ( μ1=μ2 ) rút ra từ dân số phân bố bình thường (cho cả μ=0 và ước tính ). Chúng tôi giả sử mỗi nhóm và chúng tôi sử dụng -test. Điều này có nghĩa là giá trị là chỉ ra rằng hoàn toàn không có sự khác biệt so với . Điều này sẽ chỉ ra rằng thống kê kiểm tra là . Sự khác biệt trung bình giữa các nhóm sẽ là . Giới hạn củaσp 1,00000 H 0 0 0 95 % [ 0.0 , 0.0 ]=1N=16tp1.00000H00095%khoảng tin cậy cho sự khác biệt trung bình trong trường hợp này? Họ sẽ là ?[0.0,0.0]

Điểm chính trong câu hỏi của tôi là khi nào chúng ta thực sự có thể nói rằng là đúng, tức là trong trường hợp này? Hay khi trong khuôn khổ thường xuyên, chúng ta thực sự có thể nói "không khác biệt" khi so sánh hai phương tiện?H0μ1=μ2


1
Tôi muốn nói rằng điều này đã được trả lời trong thống kê ở đây.stackexchange.com/questions/275677/ , nhưng tôi không nhấn mạnh vào nó.
Tim

1
Tôi đang gặp khó khăn khi tìm cách lấy p=1 với phương sai dân số dương.
Dave


3
"Chúng tôi giả sử N = 16 mỗi nhóm và chúng tôi sử dụng thử nghiệm t. Điều này có nghĩa là giá trị p là 1,00000 chỉ ra rằng hoàn toàn không có sự khác biệt so với H0." Tại sao bạn cho rằng một cái gì đó ('cái này' đề cập đến điều gì?) Có nghĩa là giá trị p là 1. Thông thường nhất là giá trị p được phân phối đồng đều khi H_0 là đúng và p = 1 xảy ra gần như không bao giờ.
Sextus Empiricus

2
@MartijnWeterings Hoàn toàn chính xác - chỉ vì bạn đang lấy mẫu hai bản phân phối thực tế giống hệt nhau không có nghĩa là bạn sẽ nhận được giá trị p là 1 khi so sánh chúng. Theo định nghĩa, 5% thời gian bạn sẽ nhận được giá trị p dưới 0,05.
Hạt nhân Wang

Câu trả lời:


16

Khoảng tin cậy cho phép thử t có dạng x¯1x¯2±tcrit,αsx¯1x¯2 , trong đó x¯1x¯2 là các phương tiện mẫu, tcrit,α là giá trị t tới hạn tại giá trị α cho và sx¯1x¯2là sai số chuẩn của chênh lệch về phương tiện. Nếup=1.0 , sau đó x¯1x¯2=0 . Vì vậy, các công thức chỉ là±tcrit,αsx¯1x¯2 , và các giới hạn chỉ là {tcrit,αsx¯1x¯2 ,tcrit,αsx¯1x¯2 }.

Tôi không chắc tại sao bạn lại nghĩ giới hạn sẽ là {0,0}.Giá trị t quan trọng không bằng 0 và sai số chuẩn của chênh lệch trung bình không bằng không.


10

Rất lười biếng, sử dụng R để giải quyết vấn đề bằng số thay vì thực hiện các phép tính bằng tay:

Xác định hàm sẽ cung cấp các giá trị được phân phối bình thường với giá trị trung bình (gần như!) Chính xác bằng 0 và SD chính xác 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Chạy thử nghiệm t:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Các phương tiện không chính xác bằng không vì sự thiếu chính xác của dấu phẩy động.

Trực tiếp hơn, các TCTD là ± sqrt(1/8)*qt(0.975,df=30) ; phương sai của mỗi giá trị trung bình là 1/16, do đó phương sai gộp là 1/8.


8

CI có thể có bất kỳ giới hạn nào, nhưng nó được tập trung chính xác vào khoảng 0

Đối với thử nghiệm T hai mẫu (thử nghiệm sự khác biệt về phương tiện của hai quần thể), giá trị p của chính xác một giá trị tương ứng với trường hợp mẫu có nghĩa là mẫu chính xác bằng nhau. (Các chênh lệch mẫu có thể đảm nhận bất kỳ giá trị.) Để thấy điều này, lưu ý rằng chức năng giá trị p cho kỳ thi này là là:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Do đó, đặt x¯=y¯ mang lại:

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Bây giờ, giả sử bạn hình thành khoảng tin cậy tiêu chuẩn (gần đúng) bằng cách sử dụng xấp xỉ Welch - Satterwaite. Trong trường hợp này, giả sử rằng x¯=y¯ (để đưa ra giá trị p chính xác của một) sẽ cho khoảng tin cậy:

CI(1α)=[0±sXnX+tDF,α/2sYnY],

trong đó mức độ tự do DF được xác định bằng phép tính gần đúng của Welch - Satterwaite. Tùy thuộc vào phương sai mẫu quan sát được trong bài toán, khoảng tin cậy có thể là bất kỳ khoảng hữu hạn nào tập trung quanh 0. Đó là, khoảng tin cậy có thể có bất kỳ giới hạn nào, miễn là nó được căn giữa chính xác quanh 0.


Tất nhiên, nếu dữ liệu cơ bản thực sự đến từ một bản phân phối liên tục, sự kiện này xảy ra với xác suất bằng không, nhưng chúng ta hãy giả định nó sẽ xảy ra.


Câu hỏi cho biết "ước tính = 1".
Tích lũy

Điều kiện đó là không cần thiết để có được giá trị p của một, vì vậy tôi đã bỏ nó.
Phục hồi Monica

3

Thật khó để có một cuộc thảo luận triết học chung về những điều có 0 xác suất xảy ra. Vì vậy, tôi sẽ cho bạn thấy một số ví dụ liên quan đến câu hỏi của bạn.

Nếu bạn có hai mẫu độc lập khổng lồ từ cùng một phân phối, thì cả hai mẫu vẫn sẽ có một số thay đổi, thống kê t 2 mẫu được gộp sẽ ở gần, nhưng không chính xác bằng 0, giá trị P sẽ được phân phối là Unif(0,1), và khoảng tin cậy 95% sẽ rất ngắn và tập trung rất gần 0.

Một ví dụ về một tập dữ liệu và kiểm tra t như vậy:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Dưới đây là kết quả tóm tắt từ 10.000 tình huống như vậy. Đầu tiên, phân phối giá trị P.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

enter image description here

Tiếp theo thống kê kiểm tra:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

enter image description here

Và như vậy cho chiều rộng của CI.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Hầu như không thể có được giá trị P của sự thống nhất khi thực hiện một thử nghiệm chính xác với dữ liệu liên tục, trong đó các giả định được đáp ứng. Nhiều đến nỗi, một nhà thống kê khôn ngoan sẽ suy ngẫm về những gì có thể đã sai khi thấy giá trị P là 1.

Ví dụ: bạn có thể cung cấp cho phần mềm hai mẫu lớn giống hệt nhau . Việc lập trình sẽ tiếp tục như thể đây là hai mẫu độc lập và cho kết quả lạ. Nhưng ngay cả khi đó CI sẽ không có chiều rộng bằng 0.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Tuy nhiên, điều đó đủ công bằng, vì phân phối bình thường là liên tục, xác suất cho bất kỳ ví dụ cụ thể nào là 0, không quan trọng cho dù u1 = u2 hay u1-u2 = -0.977 hay bất cứ điều gì. Tôi đã cố gắng bình luận dọc theo dòng chữ "điều này sẽ không bao giờ xảy ra và rất có thể có gì đó không ổn trong trường hợp đó", nhưng sau đó tôi nghĩ, không, có ý nghĩa gì đó để nói, giả sử điều này đã xảy ra, chấp nhận rằng điều này đã xảy ra xác suất bằng không như bất kỳ ví dụ cụ thể .
Lewian

1
Đây là câu trả lời đúng cho câu hỏi sai
David

1
@ David. Có thể là như vậy. Nếu bạn có thể nói những gì bạn tin là câu hỏi đúng và đề xuất câu trả lời, điều đó có thể hữu ích cho tất cả mọi người xung quanh. Tôi đã cố gắng chỉ để giải quyết một vài trong số những gì tôi nghĩ là một số quan niệm sai lầm.
BruceET

OP tuyên bố "Một tuyên bố rất phổ biến là H0 không bao giờ đúng." Câu trả lời của @ BruceET chứng minh TẠI SAO H0 không bao giờ có thể được chấp nhận. Các H0 gần hơn đến việc là đúng, P thống nhất hơn ngẫu nhiên trở thành, có nghĩa là một P giữa (0.98,0.99) là giống như có khả năng như một P giữa (0.1, 0.2) khi H0 đúng.
Ron Jensen - Tất cả chúng ta đều là Monica

1

Câu trả lời đơn giản (+1 cho Nô-ê) sẽ giải thích rằng khoảng tin cậy cho chênh lệch trung bình có thể vẫn là độ dài khác không vì nó phụ thuộc vào sự thay đổi quan sát được trong mẫu theo cách khác với giá trị p.

Tuy nhiên bạn vẫn có thể tự hỏi tại sao nó lại như vậy. Vì không có gì lạ khi tưởng tượng rằng giá trị p cao cũng có nghĩa là khoảng tin cậy nhỏ. Rốt cuộc, cả hai đều tương ứng với một cái gì đó gần với một xác nhận của giả thuyết null. Vậy tại sao suy nghĩ này không đúng?

Giá trị p cao không giống như khoảng tin cậy nhỏ.

  • Giá trị p là một chỉ số cho thấy mức độ quan sát cụ thể cực đoan như thế nào (cực kỳ đưa ra một số giả thuyết) bằng cách diễn tả mức độ có thể xảy ra khi quan sát độ lệch cho trước. Đó là biểu hiện của kích thước hiệu ứng quan sát được liên quan đến độ chính xác của thử nghiệm (kích thước hiệu ứng quan sát lớn có thể không có ý nghĩa nhiều khi thử nghiệm 'không chính xác' đến mức những quan sát này không cực đoan theo quan điểm thống kê / xác suất ). Khi bạn quan sát một p-giá trị là 1 thì đây (chỉ) có nghĩa là bạn quan sát thấy không hiệu quả vì xác suất để quan sát như vậy không kết quả hoặc lớn hơn là bằng 1 (nhưng điều này là không giống như rằng có không có hiệu lực).

    Sidenote: Tại sao giá trị p? Giá trị p biểu thị kích thước hiệu ứng quan sát thực tế liên quan đến kích thước hiệu ứng mong đợi (xác suất). Điều này có liên quan bởi vì các thí nghiệm có thể, theo thiết kế, tạo ra các quan sát về một số kích thước hiệu ứng có liên quan theo cơ hội thuần túy do các biến động phổ biến trong dữ liệu / quan sát. Yêu cầu quan sát / thử nghiệm có giá trị p thấp có nghĩa là thử nghiệm có độ chính xác cao - nghĩa là: kích thước hiệu ứng quan sát ít thường xuyên hơn / có thể do cơ hội / biến động (và có thể có thể do hiệu ứng thực sự) .

    XN(0,1)P(X=0)=0

  • αα

    Bạn nên lưu ý rằng giá trị p cao không phải là (bằng chứng) một bằng chứng / hỗ trợ / bất cứ điều gì cho giả thuyết khống. Giá trị p cao chỉ có nghĩa là quan sát không đáng chú ý / cực đoan đối với giả thuyết khống cho trước, nhưng đây cũng có thể là trường hợp của giả thuyết thay thế (nghĩa là kết quả phù hợp với cả hai giả thuyết có / không có hiệu lực). Điều này thường xảy ra khi dữ liệu không mang nhiều thông tin (ví dụ tiếng ồn cao hoặc mẫu nhỏ).

p0.5pU(0,1)


1

Điểm chính trong câu hỏi của tôi là khi nào chúng ta thực sự có thể nói rằng H0 là sự thật μ1= =μ2 trong trường hợp này?

Không, bởi vì "sự vắng mặt của bằng chứng không phải là bằng chứng vắng mặt." Xác suất có thể được coi là một phần mở rộng của logic , với sự không chắc chắn được thêm vào, vì vậy hãy tưởng tượng trong giây lát thay vì số thực trên khoảng đơn vị, kiểm tra giả thuyết sẽ chỉ trả về các giá trị nhị phân: 0 (sai) hoặc 1 (đúng). Trong trường hợp như vậy, các quy tắc logic cơ bản được áp dụng, như trong ví dụ sau :

  • Nếu trời mưa bên ngoài, thì mặt đất bị ướt.
  • Mặt đất ẩm ướt.
  • Do đó, trời mưa.

Mặt đất rất có thể bị ướt vì trời mưa. Hoặc có thể là do một vòi phun nước, ai đó làm sạch máng xối của họ, vỡ nguồn nước, v.v. Những ví dụ cực đoan hơn có thể được tìm thấy trong liên kết ở trên.

Về khoảng tin cậy, nếu mẫu của bạn lớn và μ1-μ20, sau đó khoảng tin cậy cho sự khác biệt sẽ trở nên cực kỳ hẹp, nhưng khác không. Như những người khác chú ý, bạn có thể quan sát những thứ như số không và số chính xác, nhưng thay vì các giới hạn chính xác của dấu phẩy động.

Ngay cả khi bạn quan sát p= =1±0khoảng tin cậy, bạn vẫn cần lưu ý rằng bài kiểm tra chỉ cung cấp cho bạn câu trả lời gần đúng. Khi thực hiện kiểm định giả thuyết, chúng tôi không chỉ đưa ra giả định rằngH0là đúng, nhưng cũng đưa ra một số giả định khác, như các mẫu độc lập và đến từ phân phối bình thường, điều không bao giờ xảy ra đối với dữ liệu trong thế giới thực. Bài kiểm tra cung cấp cho bạn một câu trả lời gần đúng , cho câu hỏi không chính đáng, vì vậy nó không thể "chứng minh" giả thuyết, nó chỉ có thể nói "theo những giả định không hợp lý này, điều này sẽ không thể xảy ra" .


0

Nothing stops you from using standard t- or Gauss-formulae for computing the confidence interval - all informations needed are given in your question. p=1 doesn't mean that there's anything wrong with that. Note that p=1 does not mean that you can be particularly sure that the H0 is true. Random variation is still present and if u0=u1 can happen under the H0, it can also happen if the true value of u0 is slightly different from the true u1, so there will be more in the confidence interval than just equality.


I did some editing, I hope it's more defined now.
arkiaamu

OK, I removed references to what was ill-defined in the earlier version. The question has in the meantime been answered properly by others.
Lewian

Please use MathJax notation
David

0

A very common statement is that H0 is never true, it's just a matter of sample size.

Not among people who know what they're talking about, and are speaking precisely. Traditional hypothesis testing never concludes that the null is true, but whether the null is true or not is separate from whether the null is concluded to be true.

This would mean that p-value is 1.00000

For a two-tailed test, yes.

indicating that there is absolutely no discrepancy from H0.

H0 is a statement about the distribution. The mode of the distribution given in H0 is 0, so there's no discrepancy between the observation and the mode of the distribution, but it's not quite correct to say there's no discrepancy from H0. No individual result would be a discrepancy, because any value could come from the distribution. Each p-value is equally likely. Getting a p-value of exactly .01 is just as likely as getting a p-value of exactly 1 (apart from discretization issues). If you had a bunch of independent samples, and their distribution didn't match what H0 predicts, that would much more legitimately be called a "discrepancy" than would merely seeing a single sample whose mean doesn't match the mode.

What would be the limits of 95% confidence interval for the mean difference in this case?

To first approximation, the limits of a 95% confidence interval are about twice the applicable standard deviation. There is no discontinuity at zero. If you find a function f(ϵ) that finds the 95% confidence interval for a difference in means of ϵ, you can simply take limϵ0f(ϵ) to find the confidence interval for a mean difference of zero.

Main point in my question was that when can we really say that H0 is true, i.e. μ1=μ2 in this case?

We can say whatever we want. However, saying that a test shows the null to be true is not consistent with traditional hypothesis testing, regardless of the results. And doing so is not well-founded from an evidenciary standpoint. The alternative hypothesis, that the means are not the same, encompasses all possible difference in means. The alternative hypothesis is "The difference in means is 1, or 2, or 3, or .5, or .1, ..." We can posit an arbitrarily small difference in means, and that will be consistent with the alternative hypothesis. And with an arbitrarily small difference, the probability given that mean is arbitrarily close to the probability given the null. Also, the alternative hypothesis encompasses not only the possibility that the parameters of the distributions, such as the mean, are different, but that there's an entirely different distribution. For instance, the alternative hypothesis encompasses "The two samples will always have a difference in means that this is either exactly 1 or exactly 0, with probability .5 for each". The results are more consistent with that then they are with the null.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.