Làm thế nào mà Karl Pearson đưa ra thống kê chi bình phương?


14

Pearson đã đưa ra số liệu thống kê chi bình phương Pearson sau năm 1900 như thế nào?

K~χ2

K=(OijEij)2Eij
Kχ2

Anh ta có suy nghĩ chi bình phương và nghĩ ra chỉ số (cách tiếp cận từ dưới lên), hay anh ta đã nghĩ ra thống kê và sau đó chứng minh rằng nó tuân theo phân phối chi bình phương (từ trên xuống)?K

Tôi muốn biết lý do tại sao ông đã chọn mà hình thức cụ thể và không phải người khác như hoặc Σ | O i j - E i j | , và cũng là lý do tại sao ông chia hình vuông với mẫu số.(OijEij)2|OijEij|



1
Tất nhiên, có thể có bất kỳ số liệu thống kê nào bạn có thể sử dụng. Các lựa chọn thay thế của bạn là hoàn toàn tốt, mặc dù bạn phải tìm ra các bản phân phối lấy mẫu cho chúng, sẽ khác nhau dựa trên số lượng ô. Một điều thuận tiện về hình thức này là nó có mối quan hệ nhất định với các phân phối khác, ví dụ: đó là phân phối tổng của các biến thiên ngẫu nhiên chuẩn bình phương k bình phương.
gung - Phục hồi Monica

Câu trả lời:


23

Giấy 1900 của Pearson không có bản quyền, vì vậy chúng tôi có thể đọc nó trực tuyến .

Bạn nên bắt đầu bằng cách lưu ý rằng bài báo này là về sự tốt của kiểm tra sự phù hợp, chứ không phải kiểm tra tính độc lập hoặc đồng nhất.

Anh ta tiến hành bằng cách làm việc với bình thường đa biến, và bình phương chi phát sinh như một tổng của các biến thiên bình thường chuẩn hóa bình phương.

Bạn có thể thấy từ cuộc thảo luận trên p160-161, anh ấy đang thảo luận rõ ràng về việc áp dụng thử nghiệm cho dữ liệu phân tán đa quốc gia (Tôi không nghĩ anh ấy sử dụng thuật ngữ đó ở bất cứ đâu). Rõ ràng anh ta hiểu được tính quy tắc đa biến gần đúng của đa thức (chắc chắn anh ta biết các lề là gần như bình thường - đó là một kết quả rất cũ - và biết các phương tiện, phương sai và hiệp phương sai, vì chúng được nêu trong bài báo); Tôi đoán là hầu hết những thứ đó đã là chiếc mũ cũ vào năm 1900. (Lưu ý rằng bản phân phối chi bình phương bắt đầu hoạt động bởi Helmert vào giữa những năm 1870.)

Sau đó, ở dưới cùng của p163, anh ta lấy được một thống kê chi bình phương là "thước đo mức độ phù hợp" (chính số liệu thống kê xuất hiện trong số mũ của xấp xỉ bình thường đa biến).

Sau đó anh ta tiếp tục thảo luận về cách đánh giá giá trị p *, và sau đó anh ta đưa ra chính xác diện tích đuôi trên của χ122 ngoài 43,87 là 0,000016. [Tuy nhiên, bạn nên nhớ rằng anh ta đã không hiểu chính xác cách điều chỉnh mức độ tự do để ước tính tham số ở giai đoạn đó, vì vậy một số ví dụ trong bài viết của anh ta sử dụng df quá cao]

* (lưu ý rằng cả hai mô hình thử nghiệm của Ngư dân và Neyman-Pearson đều không tồn tại, tuy nhiên chúng tôi vẫn thấy rõ anh ta áp dụng khái niệm giá trị p.)

Bạn sẽ lưu ý rằng anh ấy không viết rõ ràng các thuật ngữ như . Thay vào đó, ông viết m 1 , m 2 vv cho đếm mong đợi và cho số lượng quan sát được ông sử dụng m ' 1 và vân vân. Sau đó ông định nghĩa e = m - m ' (dưới nửa P160) và tính e 2 / m(OiEi)2/Eim1m2m1e=mme2/m cho mỗi tế bào (. Thấy eq (xv) p163 và cột cuối cùng của bảng ở dưới cùng của p167) ... tương đương với số lượng, nhưng trong ký hiệu khác nhau.

Phần lớn cách hiểu hiện tại của bài kiểm tra chi bình phương vẫn chưa được thực hiện, nhưng mặt khác, đã có khá nhiều thứ (ít nhất là nếu bạn biết phải tìm gì). Rất nhiều điều đã xảy ra vào những năm 1920 (và trở đi) đã thay đổi cách chúng ta nhìn vào những điều này.


Về lý do tại sao chúng ta chia cho Ei trong trường hợp đa thức, điều đó xảy ra rằng mặc dù phương sai của các thành phần riêng lẻ trong đa thức nhỏ hơn , khi chúng ta tính toán hiệp phương sai, nó tương đương với việc chia cho E i , tạo ra để đơn giản hóa tốt đẹp.EiEi


Đã thêm vào chỉnh sửa:

Bài viết năm 1983 của Plackett đưa ra rất nhiều bối cảnh lịch sử và một vài điều hướng dẫn cho bài báo. Tôi rất khuyên bạn nên xem nó. Có vẻ như nó trực tuyến miễn phí thông qua JStor (nếu bạn đăng nhập), vì vậy bạn thậm chí không cần truy cập thông qua một tổ chức để đọc nó.

Plackett, RL (1983),
"Karl Pearson và bài kiểm tra bình phương" ,
Tạp chí thống kê quốc tế ,
Tập. 51, số 1 (tháng 4), trang 59-72


1
Tôi chỉ đọc lại bài đăng này và mỗi lần tôi làm, tôi lại có thêm một cái nhìn sâu sắc. @Glen_b Tôi muốn cảm ơn bạn vì câu trả lời tuyệt vời của bạn, điều mà tôi nên làm trước đây. Nếu tôi có thể đặt câu hỏi bổ sung, trong phần giải thích của bạn về cách chia E điều chỉnh cho hiệp phương sai, bạn có thể giải thích thêm về điều đó hoặc chỉ cho tôi tài nguyên thảo luận về điểm này không? Tôi có thể hiểu một cách trực giác tại sao "bình thường hóa" là cần thiết, nhưng tôi muốn trở lại trực giác của mình với bằng chứng toán học.
Alby

1
Ei

1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)

Cảm ơn bạn đã liên kết @Glen_b. Sau khi đọc bài viết, bây giờ nó rõ ràng hơn nhiều! Tôi đã ngây thơ nghĩ rằng mẫu số ở đó để điều chỉnh sự khác biệt ban đầu cho mỗi ô, do đó, thuật ngữ "bình thường hóa", nhưng đọc bài đăng của bạn tôi nhận ra tôi đã hoàn toàn không biết.
Alby

Thật không may, từ 'bình thường hóa' có ít nhất ba ý nghĩa khác nhau có liên quan trong thống kê. Không được cung cấp, thông thường tôi chỉ sử dụng nó để có nghĩa là "tiêu chuẩn hóa thành 0 và độ lệch chuẩn 1" nhưng những người khác sử dụng nó có nghĩa là 'bình thường hóa' theo nghĩa bình thường hóa một vectơ theo một số quy tắc, hoặc thậm chí để chuyển đổi thành gần đúng quy tắc. Vì đây là một lỗi như vậy ở đây, bây giờ tôi nên biết để tránh nó.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.