Tại sao kiểm tra chi bình phương sử dụng số lượng dự kiến ​​là phương sai?


18

Trong thử nghiệm , cơ sở để sử dụng căn bậc hai của số lượng dự kiến ​​là độ lệch chuẩn (nghĩa là số lượng dự kiến ​​là phương sai) của mỗi phân phối bình thường? Điều duy nhất tôi có thể tìm thấy khi thảo luận về vấn đề này là http://www.physics.csbsju.edu/stats/chi-sapes.html , và nó chỉ đề cập đến các bản phân phối Poisson.χ2

Như một minh họa đơn giản cho sự nhầm lẫn của tôi, điều gì sẽ xảy ra nếu chúng ta kiểm tra xem hai quá trình có khác nhau đáng kể hay không, một quá trình tạo ra 500 As và 500 Bs với phương sai rất nhỏ và hai quá trình tạo ra 550 As và 450 Bs với phương sai rất nhỏ (hiếm khi tạo ra 551 Như và 449 B)? Không phải phương sai ở đây rõ ràng không chỉ đơn giản là giá trị mong đợi sao?

(Tôi không phải là một nhà thống kê, vì vậy thực sự tìm kiếm một câu trả lời mà người không chuyên có thể truy cập được.)


Điều này có lẽ có liên quan đến thực tế là phương sai của biến ngẫu nhiên là và với thực tế là số liệu thống kê phải được nhân với 2 để có phân phối chính xác (như trong kiểm tra tỷ lệ khả năng). Có lẽ ai đó biết về điều này chính thức hơn. 2 kχk22k
Macro

Câu trả lời:


16

Hình thức chung cho nhiều thống kê kiểm tra là

obServed-expectedStmộtndmộtrderror

Trong trường hợp biến thông thường, sai số chuẩn dựa trên phương sai dân số đã biết (chỉ số z) hoặc ước tính từ mẫu (thống kê t). Với nhị thức, sai số chuẩn dựa trên tỷ lệ (tỷ lệ giả định cho các thử nghiệm).

Trong một bảng dự phòng, số lượng trong mỗi ô có thể được coi là đến từ phân phối Poisson với giá trị trung bình bằng giá trị mong đợi (dưới giá trị null). Phương sai của phân phối Poisson bằng giá trị trung bình, vì vậy chúng tôi cũng sử dụng giá trị dự kiến ​​để tính toán lỗi tiêu chuẩn. Tôi đã thấy một thống kê sử dụng quan sát thay vào đó, nhưng nó có ít lý lẽ biện minh hơn và không hội tụ tốt cho phân phối .χ2


1
Tôi đang bị kẹt khi kết nối với Poisson / hiểu lý do tại sao mỗi tế bào có thể được coi là đến từ Poisson. Tôi biết giá trị trung bình / phương sai của Poissons và tôi biết chúng đại diện cho số lượng sự kiện được đưa ra. Tôi cũng biết phân phối chi bình phương đại diện cho tổng bình phương của các tiêu chuẩn (phương sai 1). Tôi chỉ đang cố gắng che giấu sự biện minh của việc sử dụng lại giá trị mong đợi như một giả định về "sự lây lan" của mỗi quy tắc. Đây có phải chỉ để làm cho mọi thứ phù hợp với phân phối chi bình phương / để "tiêu chuẩn hóa" các quy tắc?
Dương

3
Có một vài vấn đề, phân phối Poisson là phổ biến cho số lượng khi mọi thứ khá độc lập. Thay vì nghĩ về bảng có tổng cố định và bạn đang phân phối các giá trị giữa các ô của bảng, hãy nghĩ về chỉ một ô của bảng và bạn đang chờ một khoảng thời gian cố định để xem có bao nhiêu phản hồi rơi vào ô đó , điều này phù hợp với ý tưởng chung của Poisson. Đối với phương tiện lớn, bạn có thể xấp xỉ một Poisson với một phân phối chuẩn, vì vậy kiểm định thống kê có ý nghĩa như một xấp xỉ bình thường đến Poisson, sau đó chuyển sang . χ2
Greg Snow

1
(+1) Giả sử các ô đếm là các biến ngẫu nhiên Poisson độc lập với trung bình n π i . Sau đó, chắc chắn, k i = 1 ( X i - n π i ) 2Xi,,Xknπi trong phân phối. Nhưng, vấn đề với điều này lànlà mộttham sốchứ không phải là số lượng quan sát thực tế. Tổng số lượng quan sát được làN=Σ k i = 1 Xi~Poi(n). Mặc dùN/n1gần như chắc chắn bởi SLLN, một số công việc khác phải được thực hiện để biến heuristic thành một cái gì đó khả thi. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
Đức hồng y

Như một minh họa đơn giản cho sự nhầm lẫn của tôi, điều gì sẽ xảy ra nếu chúng ta kiểm tra xem hai quá trình có khác nhau đáng kể hay không, một quá trình tạo ra 500 As và 500 Bs với phương sai rất nhỏ và hai quá trình tạo ra 550 As và 450 Bs với phương sai rất nhỏ (hiếm khi tạo ra 551 Như và 449 B)? Không phải phương sai ở đây rõ ràng không chỉ đơn giản là giá trị mong đợi sao?
Dương

1
@Yang: Nghe có vẻ như dữ liệu của bạn --- mà bạn chưa mô tả --- không phù hợp với mô hình làm cơ sở cho việc sử dụng thống kê chi bình phương. Mô hình chuẩn là một trong những mẫu đa mẫu . Nói một cách chính xác, không lấy mẫu Poisson thậm chí (vô điều kiện), đó là câu trả lời của Greg. Tôi đưa ra (một điều có lẽ khó hiểu) về điều này trong bình luận trước đây của tôi.
Đức hồng y

17

Hãy xử lý trường hợp đơn giản nhất để cố gắng cung cấp trực giác nhất. Hãy để là một mẫu iid từ một phân phối rời rạc với k kết quả. Hãy π 1 , ... , π k là xác suất của từng kết quả cụ thể. Chúng tôi đang quan tâm trong (tiệm cận) phân phối chi-squared Thống kê X 2 = k Σ i = 1 ( S trong π i ) 2X1,X2,Giáo dục,Xnkπ1,Giáo dục,πk Ở đây n π i là số đếm dự kiến ​​củakết quả thứ i .

X2= =ΣTôi= =1k(STôi-nπTôi)2nπTôi.
nπTôiTôi

Một heuristic gợi ý

Xác định , sao choX2=iU 2 i =U 2 2 trong đó.BạnTôi= =(STôi-nπTôi)/nπTôiX2= =ΣTôiBạnTôi2= =Bạn22Bạn= =(Bạn1,Giáo dục,Bạnk)

Vì là , nên theo Định lý giới hạn trung tâm , do đó, chúng ta cũng có điều đó, .B i n ( n , π i ) T i = U iSTôiBTôin(n,πTôi)U i d N ( 0 , 1 - π i )

TTôi= =BạnTôi1-πTôi= =STôi-nπTôinπTôi(1-πTôi)dN(0,1),
BạnTôidN(0,1-πTôi)

Bây giờ, nếu các là (tiệm cận) độc lập (mà họ không), thì chúng ta có thể tranh luận rằng được tiệm phân phối. Nhưng, lưu ý rằng là một hàm xác định của và do đó các biến không thể độc lập.i T 2 i χ 2 k T k ( T 1 , Rời , T k - 1 ) T iTTôiΣTôiTTôi2χk2Tk(T1,Giáo dục,Tk-1)TTôi

Do đó, chúng ta phải tính đến hiệp phương sai giữa chúng bằng cách nào đó. Hóa ra, cách "chính xác" để làm điều này là sử dụng thay vào đó và hiệp phương sai giữa các thành phần của cũng thay đổi phân phối tiệm cận từ những gì chúng ta có thể nghĩ là thành , trên thực tế, a .U χ 2 k χ 2 k - 1BạnTôiBạnχk2χk-12

Một số chi tiết về điều này theo sau.

Một điều trị nghiêm ngặt hơn

Trên thực tế, không khó để kiểm tra xem, cho . ijCov(BạnTôi,Bạnj)= =-πTôiπjTôij

Vì vậy, hiệp phương sai của là trong đó . Lưu ý rằng là đối xứng và idempotent, tức là, . Vì vậy, đặc biệt, nếu có iid các thành phần thông thường tiêu chuẩn, thì . ( NB Phân phối chuẩn nhiều biến số trong trường hợp này là suy biến .)Một = Tôi - Bạn

Một= =Tôi-ππT,
MộtMột=Một2=ATZ=(Z1,...,Zk)MộtZ~N(0,A)π= =(π1,Giáo dục,πk)MộtMột= =Một2= =MộtTZ= =(Z1,Giáo dục,Zk)MộtZ~N(0,Một)

Bây giờ, bởi đa biến Trung Định lý giới hạn , vector có phân phối chuẩn nhiều chiều tiệm cận với trung bình và phương sai . 0 ABạn0Một

Vì vậy, có phân phối tiệm cận giống như , do đó, phân phối tiệm cận giống nhau của giống như phân phối của theo định lý ánh xạ liên tục .A Z X 2 = U T U Z T A T A Z = Z T A ZBạnMộtZX2= =BạnTBạnZTMộtTMộtZ= =ZTMộtZ

Nhưng, là đối xứng và không có giá trị, vì vậy ( a ) nó có các hàm riêng trực giao, ( b ) tất cả các giá trị riêng của nó là 0 hoặc 1, và ( c ) bội số của giá trị riêng của 1 là . Điều này có nghĩa là có thể được phân tách thành trong đó là trực giao và là ma trận đường chéo có trên đường chéo và các mục chéo còn lại bằng không.Mộtrmộtnk(Một)MộtMột= =QDQTQDrmộtnk(Một)

Do đó, phải là phân phối vì có thứ hạng trong trường hợp của chúng tôi.ZTMộtZχk-12Mộtk-1

Các kết nối khác

Thống kê chi bình phương cũng liên quan chặt chẽ với thống kê tỷ lệ khả năng. Thật vậy, nó là một thống kê điểm Rao và có thể được xem như là một xấp xỉ chuỗi Taylor về thống kê tỷ lệ khả năng.

Người giới thiệu

Đây là sự phát triển của riêng tôi dựa trên kinh nghiệm, nhưng rõ ràng bị ảnh hưởng bởi các văn bản cổ điển. Những nơi tốt để tìm hiểu thêm là

  1. GAF Seber và AJ Lee (2003), Phân tích hồi quy tuyến tính , tái bản lần 2, Wiley.
  2. E. Lehmann và J. Romano (2005), Thử nghiệm các giả thuyết thống kê , tái bản lần thứ 3, Springer. Mục 14.3 nói riêng.
  3. DR Cox và DV Hinkley (1979), Thống kê lý thuyết , Chapman và Hội trường.

(+1) Tôi nghĩ rằng thật khó để tìm thấy bằng chứng này trong các văn bản phân tích dữ liệu phân loại tiêu chuẩn như Agresti, A. (2002). Phân tích dữ liệu phân loại. John-Wiley.
suncoolsu

Cảm ơn đã bình luận. Tôi biết có một số cách xử lý thống kê chi bình phương ở Agresti, nhưng đừng nhớ anh ấy đã đi được bao xa. Anh ta có thể chỉ thu hút sự tương đương tiệm cận với thống kê tỷ lệ khả năng.
Đức hồng y

Tôi không biết liệu bạn có tìm thấy bằng chứng ở trên trong bất kỳ văn bản nào không. Tôi chưa thấy việc sử dụng ma trận hiệp phương sai (suy biến) đầy đủ và các thuộc tính của nó ở nơi khác. Cách xử lý thông thường xem xét phân phối (không phá hủy) của tọa độ đầu tiên và sau đó sử dụng ma trận hiệp phương sai nghịch đảo (có dạng đẹp, nhưng không rõ ràng ngay lập tức) và một số (đại số) tẻ nhạt để thiết lập kết quả . k-1
Đức hồng y

Câu trả lời của bạn bắt đầu bằng cách định nghĩa một tập hợp các 's nhưng sau đó xác định các số liệu thống kê về ' s. Bạn có thể bao gồm một cái gì đó trong câu trả lời chỉ ra cách các biến bạn xác định khi bắt đầu và các biến trong thống kê có liên quan không? XS
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.