Tại sao kiểm tra độc lập sử dụng phân phối chi bình phương?


12

Các tốt lành-of-fit thử nghiệm sử dụng sau đây thống kê : Trong kiểm tra, cấp giấy mà các điều kiện được đáp ứng, người ta sử dụng phân phối - để tính giá trị p đã cho là đúng, người ta sẽ quan sát giá trị đó trong một mẫu đại diện có cùng kích thước.χ2 χ2

χ02=i=1n(OiEi)2Ei
χ2H0

Tuy nhiên, để thống kê tuân theo phân phối (với độ tự do), phải đúng là: cho độc lập, tiêu chuẩn bình thường ( Wikipedia ). Các điều kiện cho bài kiểm tra như sau (một lần nữa, từ Wikipedia ): χ 2 n - 1 n i = 1 ( O i - E i ) 2χ02χ2n1 Zi

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. Đại diện mẫu dân số
  2. Cỡ mẫu lớn
  3. Số lượng tế bào dự kiến ​​là đủ lớn
  4. Độc lập giữa mỗi loại

Từ điều kiện (1,2) rõ ràng là chúng ta thỏa mãn điều kiện suy luận từ mẫu đến dân số. (3) dường như là một giả định bắt buộc vì số lượng rời rạc , ở mẫu số, không dẫn đến phân phối gần như liên tục cho mỗi và nếu nó không đủ lớn thì có thể sửa lỗi với Yates 'hiệu chỉnh - điều này dường như xuất phát từ thực tế là một phân phối rời rạc về cơ bản là một phân phối "trôi nổi", do đó sự thay đổi cho mỗi phân phối điều chỉnh điều này.Z i 1 / 2EiZi1/2

Sự cần thiết của (4) dường như sẽ có ích sau này, nhưng tôi không thể thấy như thế nào.

Lúc đầu, tôi nghĩ rằng là cần thiết cho thống kê để phù hợp với phân phối. Điều này dẫn tôi đến giả định nghi vấn rằng , điều đó thực sự sai. Trong thực tế, rõ ràng từ việc giảm kích thước cho hai mặt của đẳng thức từ xuống rằng điều này không thể xảy ra. Oi-EiNZi=OiEiEinn-1OiEiN(0,Ei)nn1

Điều này đã trở nên rõ ràng, nhờ những lời giải thích của người làm trắng, rằng không cần phải bằng mỗi vì (lưu ý việc giảm số lượng các biến tóm tắt) cho các biến ngẫu nhiên bình thường tiêu chuẩn đó là chức năng độc lập.O i - E iZi χ20=n-1i=1Z2iZiOiEiEiχ02=i=1n1Zi2Zi

Vậy thì câu hỏi của tôi là làm thế nào để theo phân phối ? Những loại kết hợp nào của mỗi thuật ngữ dẫn đến các quy tắc chuẩn bình phương ? Điều này đòi hỏi phải sử dụng CLT, rõ ràng (và điều đó có ý nghĩa), nhưng làm thế nào? Nói cách khác , mỗi bằng (hoặc xấp xỉ bằng) là gì? χ 2 ( O i - E i ) 2χ02χ2(OiEi)2EiZi2Zi


1
Tôi tò mò nơi bạn đọc rằng bất kỳ ai cũng thừa nhận điều cuối cùng mà bạn đã nêu ( ). Điều đó là không cần thiết: thống kê có thể có phân phối (ít nhất là xấp xỉ cực kỳ tốt) mà không có bất kỳ phần dư nào được chuẩn hóa này có phân phối chuẩn. Các câu hỏi mà bạn dường như muốn hỏi là làm thế nào để biện minh cho những giả định ám chỉ các Thống kê đến một phân phối? Chính họ, họ không. Để thảo luận về những gì có thể đi sai, xin vui lòng xem bài viết của tôi tại stats.stackexchange.com/a/17148 . OiEiN(0,Ei)χ2χ2χ2χ2
whuber

1
Từ sự bằng nhau của hai tổng bình phương, bạn không thể kết luận căn bậc hai là số hạng bằng nhau theo số hạng! Bởi vì đó là trường hợp cho các số đơn thuần, nó chắc chắn cũng là trường hợp cho các biến ngẫu nhiên.
whuber

1
Để thực hiện cụ thể này, giả sử được phân phối độc lập với phân phối có bậc tự do và đó là nhưng cho tất cả . Sau đó, mặc dù không có bình thường, tuy nhiên có phân phối . (Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
whuber

1
Nếu theo "bình phương tiêu chuẩn bình thường", bạn có nghĩa là "tổng các tiêu chuẩn bình phương độc lập", đó là câu hỏi tôi tin rằng bạn thực sự muốn đặt ra ngay từ đầu :-). Và cuối cùng, hầu hết các phân tích về tình huống thực sự viện dẫn Định lý giới hạn trung tâm để chứng minh rằng phần dư được chuẩn hóa không có triệu chứng là tiêu chuẩn bình thường (nhưng không hoàn toàn độc lập, đó là lý do tại sao mức độ tự do là chứ không phải n ). n1n
whuber

1
+1 cho những gì tôi dự đoán sẽ sớm là một câu hỏi rất hay. Vấn đề đầu tiên là thử nghiệm độc lập không sử dụng thống kê được yêu cầu. Thống kê được đưa ra khi bắt đầu là một chiều (tổng số trên loại), trong khi một bài kiểm tra tính độc lập đòi hỏi nhiều hơn một biến. Vui lòng chỉnh sửa để làm cho tên của bài kiểm tra và thống kê tương ứng. n
Glen_b -Reinstate Monica

Câu trả lời:


6

Đó là về phân phối Poisson. Nếu là Poisson với trung bình λ , thì phương sai của Xλ cũng có. Điều này có nghĩa là ( X - λ ) 2XλXλ là mộtthực thể giống nhưz2. Theo CLT, Poisson có xu hướng bình thường khi giá trị trung bình trở nên lớn, đó là nơi mà chi bình phương xuất hiện. Vâng, đó là một thử nghiệm tiệm cận.

(Xλ)2λ
z2

Các mức độ tự do đến từ định lý của Cochran. Về cơ bản, Cochran giải thích cách biến đổi bình phương Chi (hoặc không thay đổi) theo sự biến đổi tuyến tính trong điểm số .z2

izi2=ZIZ

trong ký hiệu ma trận. Nếu thay vì tính toán số tiền thông thường của hình vuông, bạn tính toán đối với một số ma trận Q, sau đó bạn vẫn nhận được một số lượng với aa phân phối chi-squared, nhưng mức độ tự do hiện nay có cấp bậc của Q . Có nhiều điều kiện hơn trên ma trận Q, nhưng đây là ý chính của nó.

ZQZ
Q

Nếu bạn chơi xung quanh với một số ký hiệu ma trận, bạn có thể bày tỏ như một hình thức bậc hai. Cochran giả định tính độc lập của các biến thể bình thường ban đầu, đó là lý do tại sao các cột trong bảng đếm của bạn cũng phải độc lập.

i(ziz¯)2

Xin lỗi, nhưng bạn chắc chắn đã mất tôi tại "Nếu thay vào đó, bạn làm ..."
VF1

@ VF1, tôi đã thực hiện một thay đổi, vì vậy tôi hy vọng nó rõ ràng hơn. Định lý của Cochrane là câu trả lời cho câu hỏi của bạn khi nào một tổng bình phương có quy tắc trong đó có phân phối chi bình phương.
Placidia

1
OK, tôi sẽ xem xét điều này. Tuy nhiên, tôi sẽ để câu hỏi mở, trong trường hợp có ai khác muốn thêm vào.
VF1

1
Thông thường kích thước mẫu là cố định. Điều đó có nghĩa là không thể có bất kỳ mục nào có thể tuân theo phân phối Poisson. Do đó, sự hấp dẫn đối với phân phối Poisson có vẻ như đó chỉ là một xấp xỉ khác - và dường như để lại cho chúng tôi ngay tại nơi chúng tôi bắt đầu.
whuber

1

Theo sách giáo khoa "Thống kê giới thiệu với ngẫu nhiên và mô phỏng", phần 3.3.2 (sách giáo khoa có sẵn miễn phí tại OpenIntro ), thống kê thử nghiệm đang cố gắng tích lũy độ lệch của quan sát so với dự kiến. Và những sai lệch thực sự được thể hiện thông qua thuật ngữχ2

Zi=OiEiEi

mà thực sự bắt nguồn từ .

OiEi(StandardErrorOfTheObserved)

Các sách giáo khoa tiếp tục nói rằng ước tính tốt hơn bằng cách (StandardErrorOfTheObserved) , vì vậy thuật ngữ trở thànhZi= O i - E iEi . Sách giáo khoa không thực sự giải thích lý do tại sao sự thay thế này được chấp nhận và tôi cũng muốn tìm hiểu.Zi=OiEiEi

Dù sao, bạn có thể tạo một thống kê kiểm tra của mẫu

Z=|Z1|+|Z2|+|Z3|+...

nhưng tốt hơn hết là bình phương tất cả các điều khoản, bởi vì bạn nhận được giá trị dương ngay lập tức và giá trị cao hơn nổi bật hơn sau khi bình phương. Vì vậy, bạn nhận được như sau:

χ2=Z12+Z22+Z32+...

χ2χ2

χ2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.