Tại sao người ta không thể khái quát hóa bài kiểm tra Kolmogorov-Smirnov thành 2 chiều trở lên?


9

Câu hỏi nói lên tất cả. Tôi đã đọc cả hai rằng người ta không thể khái quát hóa KS thành một thứ nguyên bằng hoặc lớn hơn hai , và việc triển khai nổi tiếng như thế trong Công thức toán số chỉ đơn giản là sai. Bạn có thể vui lòng giải thích tại sao là như vậy?


Tôi đã thêm một số thẻ (bivariate, theo kinh nghiệm và cdf), trên cơ sở phần trích dẫn (trong câu trả lời của tôi) của bài báo.
Glen_b -Reinstate Monica

pedrofigueira - Tôi đã thực hiện những thay đổi đáng kể cho câu trả lời của mình (bản gốc của tôi đã sai; xin lỗi về điều đó). Tôi có thể sẽ thực hiện nhiều chỉnh sửa hơn vì tôi dự định quay lại với các tài liệu tham khảo cho một số bài kiểm tra KS đa biến.
Glen_b -Reinstate Monica

@Glen_b cảm ơn bạn rất nhiều vì tất cả thời gian và công sức của bạn!
pedrofigueira

Câu trả lời:


13

Tôi tin rằng việc trích dẫn phần có liên quan của đoạn văn được đề cập là hợp pháp:

3. Không thể áp dụng thử nghiệm KS ở hai chiều trở lên. Các nhà thiên văn học thường có các bộ dữ liệu với các điểm được phân phối trong một mặt phẳng hoặc các kích thước cao hơn, dọc theo một đường thẳng. Một số bài viết trong mục đích văn học thiên văn để trình bày một bài kiểm tra KS hai chiều, và một bài được sao chép trong tập Công thức Numerical nổi tiếng. Tuy nhiên, không có thử nghiệm dựa trên EDF nào (bao gồm các thử nghiệm KS, AD và các thử nghiệm liên quan) có thể được áp dụng ở hai chiều hoặc cao hơn, bởi vì không có cách duy nhất nào để sắp xếp các điểm sao cho khoảng cách giữa các EDF được xác định rõ có thể được tính toán. Người ta có thể xây dựng một thống kê dựa trên một số thủ tục đặt hàng, sau đó tính khoảng cách tối cao giữa hai bộ dữ liệu (hoặc một bộ dữ liệu và một đường cong). Nhưng các giá trị quan trọng của thống kê kết quả không phải là phân phối miễn phí.

Như đã nêu, điều này có vẻ quá mạnh mẽ.

1) Hàm hai biến phân phối, đó là là một bản đồ từ R 2 đến [ 0 , 1 ] . Nghĩa là, hàm lấy các giá trị thực đơn từ 0 đến 1. Các giá trị đó - là xác suất - chắc chắn đã được "đặt hàng" - và điều này (giá trị của hàm) là điều chúng ta cần so sánh trong các thử nghiệm dựa trên ECDF . Tương tự, ecdf, FF(x1,x2)= =P(X1x1,X2x2)R2[0,1]F^ được xác định hoàn toàn tốt trong trường hợp bivariate.

Tôi không nghĩ rằng nhất thiết phải cố gắng biến nó thành một số chức năng của một biến kết hợp đơn biến như văn bản gợi ý. Bạn chỉ cần tính toán F ở mọi sự kết hợp cần thiết và tính toán độ lệch.FF^

2) Tuy nhiên, về câu hỏi liệu nó có phân phối không, họ có một điểm:

Bạn= =(Bạn1,Bạn2)(X1,X2)BạnTôi= =FTôi(XTôi)

BạnX*= =g(Bạn)

Trong một phiên bản trước của câu trả lời của tôi, tôi đã nói:

Không có khó khăn, không có vấn đề

Sai rồi. Thực sự có vấn đề nếu có một sự thay đổi không chỉ về lợi nhuận từ đồng phục độc lập bivariate, như vừa đề cập. Tuy nhiên, những khó khăn đó đã được xem xét theo nhiều cách trong một số bài báo đưa ra các phiên bản bivariate / multivariate của thống kê Kolmogorov-Smirnov không gặp phải vấn đề đó.

Tôi có thể quay lại và thêm một số tài liệu tham khảo đó và một số thảo luận về cách chúng hoạt động ngay khi thời gian cho phép.


Câu trả lời này là chính xác rõ ràng, nhưng hãy cẩn thận: có thể sử dụng thử nghiệm KS, không có nghĩa là nó nên được sử dụng. Thông thường có những bài kiểm tra tốt hơn (mạnh mẽ hơn).
kjetil b halvorsen

Chắc chắn - mặc dù nó phụ thuộc vào những lựa chọn thay thế được quan tâm.
Glen_b -Reinstate Monica

1
Tôi không hoàn toàn hiểu câu trả lời này. Tôi tưởng tượng nhiều bộ dữ liệu thiên văn (cũng như nhiều bộ dữ liệu chiều nhỏ khác) không đi kèm với các hệ tọa độ có ý nghĩa nội tại. Do đó, yêu cầu của bạn rằng các điểm đã được "đặt hàng" sẽ không hợp lệ trong các trường hợp như vậy. Nó có thể được giải cứu nếu bạn có thể chỉ ra rằng thống kê KS độc lập với tọa độ được sử dụng để xác định vị trí . Tôi không nghĩ điều đó đúng ở hai chiều trở lên, nhưng tôi có thể nhầm.
whuber

1
@whuber Tôi đã thực hiện những thay đổi đáng kể trong phản ứng rất tốt của bạn đối với lỗi của tôi. Tôi có thể sẽ thực hiện các thay đổi hơn nữa khi tôi thêm tài liệu tham khảo và biết thêm chi tiết với hy vọng đưa ra câu trả lời sẽ hữu ích hơn trong dài hạn.
Glen_b -Reinstate Monica

(+1) Cảm ơn bạn rất nhiều, Glen, vì đã mở rộng câu trả lời này và làm cho nó trở nên sắc thái hơn. Mặc dù tôi tìm thấy tài liệu tham khảo về chất lượng đáng ngờ của OP (ngay từ đầu, nó đã hiểu sai ý nghĩa của các thử nghiệm giả thuyết), cuối cùng nó cũng thừa nhận rằng "bootstrap có thể giải cứu và mức độ quan trọng cho thống kê đa chiều cụ thể và bộ dữ liệu cụ thể đang được nghiên cứu có thể được nghiên cứu tính toán bằng số. " Điều này có vẻ phù hợp, ít nhất là về tinh thần, với cách câu trả lời của bạn đang hình thành.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.