Tại sao chi vuông được sử dụng khi tạo khoảng tin cậy cho phương sai?


15

Đây là một câu hỏi rất cơ bản. Tại sao chúng ta sử dụng một phân phối vuông chi? Ý nghĩa của phân phối này là gì? Tại sao đây là phân phối được sử dụng để tạo khoảng tin cậy cho phương sai?

Mỗi nơi tôi google cho một lời giải thích chỉ trình bày một sự thật này, giải thích khi nào nên sử dụng chi, nhưng không giải thích lý do tại sao nên sử dụng chi và tại sao nó lại trông giống như vậy.

Rất cám ơn bất cứ ai có thể chỉ cho tôi đi đúng hướng và đó là - thực sự hiểu lý do tại sao tôi sử dụng chi khi tôi đang tạo ra một khoảng tin cậy cho phương sai.


4
Bạn sử dụng nó bởi vì - khi dữ liệu bình thường - Q=(n1)s2σ2χn12 . (Điều này làm chotrởthành số lượng quan trọng)Q
Glen_b -Reinstate Monica

2
Xem thêm stats.stackexchange.com/questions/15711/ và các liên kết của nó.
Nick Cox

1
Đối với những người quan tâm đến các ứng dụng hoặc nghiên cứu sâu hơn về , bạn sẽ muốn chú ý đến sự khác biệt giữa phân phối ("chi bình phương") và ("chi") phân phối (đó là căn bậc hai của một , không có gì đáng ngạc nhiên). χ 2 χ χ 2χ2χ2χχ2
whuber

Câu trả lời:


23

Câu trả lời nhanh

Lý do là vì, giả sử dữ liệu là iid và , và xác định ˉ XXiN(μ,σ2) khi hình thành khoảng tin cậy, sự phân bố lấy mẫu kết hợp với phương sai mẫu (S2!, Hãy nhớ, một biến ngẫu nhiên) là một phân phối chi-vuông (S2(N-1)/σ2~χ2n-1), cũng giống như sự phân bố lấy mẫu gắn liền với giá trị trung bình mẫu là một phân phối chuẩn chuẩn ((ˉX-μ)

X¯= =ΣNXTôiNS2= =ΣN(X¯-XTôi)2N-1
S2S2(N-1)/σ2~χn-12) khi bạn biết phương sai, và với một t-sinh viên khi bạn không (( ˉ X -μ)(X¯μ)n/σZ(0,1) ).(X¯μ)n/STn1

Câu trả lời dài

Trước hết, chúng tôi sẽ chứng minh rằng tuân theo phân phối chi-vuông với N - 1 bậc tự do. Sau đó, chúng ta sẽ thấy bằng chứng này hữu ích như thế nào khi rút ra các khoảng tin cậy cho phương sai và cách phân phối chi bình phương xuất hiện (và tại sao nó lại hữu ích như vậy!). Hãy bắt đầu nào.S2(N1)/σ2N1

Bằng chứng

Đối với điều này, có lẽ bạn phải làm quen với phân phối chi bình phương trong bài viết Wikipedia này . Phân phối này chỉ có một tham số: mức độ tự do, , và sẽ xảy ra để có một Moment Tạo Function (MGF) cho bởi: m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 . Nếu chúng ta có thể thấy rằng sự phân bố của S 2 ( N - 1 ) / σ 2 có chức năng tạo ra khoảnh khắc như thế này, nhưng với ν =ν

mχν2(t)=(12t)ν/2.
S2(N1)/σ2 , sau đó chúng tôi đã chỉ ra rằng S 2 ( N - 1 ) / σ 2 tuân theo phân phối chi-vuông với N - 1 bậc tự do. Để hiển thị điều này, lưu ý hai sự thật:ν=N1S2(N1)/σ2N1
  1. Nếu chúng ta định nghĩa, nơiZi~N(0,1), tức là, tiêu chuẩn các biến ngẫu nhiên bình thường, chức năng tạo ra khoảnh khắc củaYđược cho bởi m Y (t)

    Y=(XiX¯)2σ2=Zi2,
    ZiN(0,1)Y MGF củaZ2được cho bởi m Z 2 ( t )
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=mZi2(t)×mZ22(t)×...mZN2(t).
    Z2 nơi mà tôi đã sử dụng PDF của tiêu chuẩn bình thường,f(z)=e- z 2 / 2/
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    và, do đó, mY(t)=(1-2t) - N / 2 ,ngụ ý rằngYtuân theo phân phối chi-vuông vớiNbậc tự do.f(z)=ez2/2/2π
    mY(t)=(12t)N/2,
    YN
  2. Nếu Y 2 là độc lập và mỗi phân phối như một bản phân phối chi-square nhưng với ν 1ν 2 bậc tự do, sau đó W = Y 1 + Y 2 phân phối với một phân phối chi-vuông với ν 1 + ν 2 độ tự do (điều này xuất phát từ việc lấy MGF của W ; làm điều này!).Y1Y2ν1ν2W=Y1+Y2ν1+ν2W

Với những sự kiện trên, lưu ý rằng nếu bạn nhân phương sai mẫu bằng , bạn có được (sau khi một số đại số), ( N - 1 ) S 2 = - n ( ˉ X - μ ) + Σ ( X i - μ ) 2 , và, do đó, chia cho σ 2 , ( N - 1 ) S 2N1

(N1)S2=n(X¯μ)+(Xiμ)2,
σ2 Lưu ý rằng thuật ngữ thứ hai ở bên trái của tổng này phân phối dưới dạng phân phối chi bình phương với 1 bậc tự do và tổng bên phải phân phối dưới dạng bình phương chi vớiNbậc tự do. Do đó,S2(N-1)/σ2phân phối như một chi-vuông vớiN-1bậc tự do.
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
NS2(N1)/σ2N1

Tính khoảng tin cậy cho phương sai.

Khi tìm kiếm một khoảng tin cậy cho phương sai, bạn muốn biết các giới hạn L 2 trong P ( L 1σ 2L 2 ) = 1 - α . Hãy chơi với sự bất bình đẳng trong ngoặc đơn. Đầu tiên, chia cho S 2 ( N - 1 ) , L 1L1L2

P(L1σ2L2)=1α.
S2(N1) Và sau đó nhớ hai điều: (1) các số liệu thống kêS2(N-1)/σ2có phân phối chi-squared vớiN-1bậc tự do và (2) các phương sai luôn greather hơn không là, mà ngụ ý rằng bạn có thể đảo ngược các bất đẳng thức, vì L 1
L1S2(N1)σ2S2(N1)L2S2(N1).
S2(N1)/σ2N1
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
hence, the probability we are looking for is:
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
Note that S2(N1)/σ2χ2(N1). We want then,
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(we integrate up to N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).

1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Néstor

4
It would be helpful to modify this answer to include the very strong but unstated assumption that the sample variance follows a chi-squared distribution when the underlying data are independent and follow a normal distribution. Unlike the theory of the distribution of the sample mean, where in practice its sampling distribution will be approximately Normal to reasonable accuracy in many situations, this same asymptotic behavior tends not to happen with the sample variance (until sample sizes become extremely large).
whuber

1
Oops. So, so true! This actually came from a problem solution that I handed out to some students, where I state on the question all these assumptions. I edited the answer now.
Néstor

1
@user34756 The reason we don't use the distribution of S2 directly is that its distribution depends on the value of a parameter. You may find it useful to investigate the use of pivotal quantities in constructing confidence intervals.
Glen_b -Reinstate Monica

1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Benoît Legat
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.