Kiểm tra sự khác biệt giữa 2 phân phối rời rạc theo kinh nghiệm


14

Tôi có dữ liệu thử nghiệm trong đó tôi có một số mẫu lớn từ các bản phân phối rời rạc mà tôi đang sử dụng làm bản phân phối theo kinh nghiệm. Tôi muốn kiểm tra xem các bản phân phối có thực sự khác nhau hay không và sự khác biệt về phương tiện là gì đối với các bản phân phối thực sự khác nhau.

Vì chúng là các bản phân phối rời rạc nên tôi hiểu rằng thử nghiệm Kolmogorov-Smirnov không hợp lệ do giả định phân phối liên tục cơ bản. Thử nghiệm Chi-Squared có phải là thử nghiệm chính xác cho việc phân phối có thực sự khác nhau không?

Tôi sẽ sử dụng thử nghiệm nào cho sự khác biệt về phương tiện? Một cách tiếp cận tốt hơn sẽ là lấy mẫu từ các bản phân phối và lấy sự khác biệt và sau đó thực hiện phân tích về phân phối của sự khác biệt?


Đúng, -test là đúng. Câu trả lời được chấp nhận cho câu hỏi này giải thích chi tiết về điều đó. phân phối 1 = urn 1phân phối 2 = urn 2 . Ở đó, các giá trị của các biến ngẫu nhiên là màu sắc và trong trường hợp của bạn có lẽ là một thứ khác, ví dụ như các số rời rạc. χ2
Georg Schnabel

Cảm ơn bạn đã phản hồi. Có một thử nghiệm cho sự khác biệt về phương tiện khi kiểm tra chi bình phương xác nhận rằng các phân phối là khác nhau không?
Wallhood

Một cách tiếp cận tốt hơn sẽ là lấy mẫu từ các bản phân phối và lấy sự khác biệt và sau đó thực hiện phân tích về sự khác biệt?
Wallhood

Câu trả lời:


13

1) Kolmogorov-Smirnov vẫn có thể được sử dụng, nhưng nếu bạn sử dụng các giá trị tới hạn được lập bảng thì nó sẽ được bảo thủ (đây chỉ là một vấn đề vì nó đẩy đường cong sức mạnh của bạn xuống). Tốt hơn để có được phân phối hoán vị của thống kê, để mức ý nghĩa của bạn là những gì bạn chọn chúng là. Điều này sẽ chỉ tạo ra sự khác biệt lớn nếu có nhiều mối quan hệ. Sự thay đổi này thực sự dễ thực hiện. (Nhưng kiểm tra KS không phải là sự so sánh duy nhất có thể như vậy; nếu một người đang tính toán phân phối hoán vị, thì vẫn có những khả năng khác.)

2) tính tốt của vanilla chi-vuông của các bài kiểm tra phù hợp cho dữ liệu rời rạc nói chung, theo tôi, là một ý tưởng thực sự tồi tệ. Nếu việc mất điện tiềm ẩn ở trên khiến bạn ngừng sử dụng bài kiểm tra KS, thì vấn đề với bình phương chi thường tồi tệ hơn nhiều - nó đưa ra thông tin quan trọng nhất, đó là thứ tự giữa các loại (giá trị quan sát), làm giảm sức mạnh của nó bằng cách phổ biến nó trên các lựa chọn thay thế mà không xem xét việc đặt hàng, do đó sẽ tệ hơn trong việc phát hiện các lựa chọn thay thế trơn tru - ví dụ như thay đổi vị trí và quy mô). Ngay cả với những tác động xấu của các mối quan hệ nặng nề ở trên, thử nghiệm KS trong nhiều trường hợp vẫn có sức mạnh tốt hơn (trong khi vẫn hạ thấp tỷ lệ lỗi Loại I).

Hình vuông cũng có thể được sửa đổi để tính đến thứ tự (phân vùng chisapes thành các thành phần tuyến tính, bậc hai, khối vv thông qua đa thức trực giao và chỉ sử dụng các số hạng bậc thấp - 4 đến 6 là các lựa chọn phổ biến). Các bài báo của Rayner và Best (và những người khác) thảo luận về phương pháp này, phát sinh từ các bài kiểm tra trơn tru của Neyman-Barton. Đây là một cách tiếp cận tốt nhưng nếu bạn không có quyền truy cập vào phần mềm cho nó, có thể sẽ cần một chút thiết lập.

Cách tiếp cận được sửa đổi sẽ tốt, nhưng nếu bạn sẽ không sửa đổi cách tiếp cận nào, thì không nhất thiết trường hợp bình phương sẽ tốt hơn kiểm tra KS - trong một số trường hợp thể tốt hơn ... hoặc nó có thể tồi tệ hơn

Nếu các mối quan hệ không nặng nề (nghĩa là có rất nhiều giá trị khác nhau được lấy bởi dữ liệu), tôi sẽ xem xét các KS như hiện trạng. Nếu chúng vừa phải, tôi sẽ tìm cách tính phân phối hoán vị. Nếu chúng rất nặng (tức là dữ liệu chỉ lấy một vài giá trị khác nhau), bình phương chi bình phương có thể cạnh tranh.


Cảm ơn bạn đã cảnh báo. Tôi sẽ cân nhắc điều đó khi tôi quyết định sử dụng bài kiểm tra KS hoặc Chi-Squared
Wallhood
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.