Động lực cho khoảng cách Kolmogorov giữa các bản phân phối


45

Có nhiều cách để đo mức độ phân phối xác suất tương tự nhau. Trong số các phương pháp phổ biến (trong các vòng tròn khác nhau) là:

  1. khoảng cách Kolmogorov: khoảng cách giữa các hàm phân phối;

  2. khoảng cách Kantorovich-Rubinstein: sự khác biệt tối đa giữa các kỳ vọng đã tạo ra hai phân phối hàm với hằng số Lipschitz 1, cũng hóa ra là khoảng cách L1 giữa các hàm phân phối;

  3. khoảng cách ràng buộc-Lipschitz: giống như khoảng cách KR nhưng các chức năng cũng được yêu cầu phải có giá trị tuyệt đối tối đa 1 .

Những cái này có những ưu điểm và nhược điểm khác nhau. Chỉ hội tụ theo nghĩa 3. thực sự tương ứng chính xác với hội tụ trong phân phối; hội tụ theo nghĩa 1. hoặc 2. nói chung mạnh hơn một chút. (Đặc biệt, nếu Xn=1n với xác suất1, sau đóXnhội tụ về0trong phân phối, nhưng không ở khoảng cách Kolmogorov. Tuy nhiên, nếu phân phối giới hạn là liên tục thì bệnh lý này không xảy ra.)

Từ quan điểm của xác suất cơ bản hoặc lý thuyết đo lường, 1. là rất tự nhiên bởi vì nó so sánh xác suất tồn tại trong một số tập hợp. Mặt khác, một viễn cảnh xác suất tinh vi hơn, có xu hướng tập trung nhiều hơn vào các kỳ vọng hơn là xác suất. Ngoài ra, từ góc độ phân tích chức năng, các khoảng cách như 2. hoặc 3. dựa trên tính đối ngẫu với một số không gian chức năng rất hấp dẫn, bởi vì có một bộ công cụ toán học lớn để làm việc với những thứ đó.

Tuy nhiên, ấn tượng của tôi (sửa tôi nếu tôi sai!) Là trong thống kê, khoảng cách Kolmogorov là cách thường được ưa thích để đo lường sự tương tự của các bản phân phối. Tôi có thể đoán một lý do: nếu một trong các bản phân phối rời rạc với sự hỗ trợ hữu hạn - đặc biệt, nếu đó là phân phối của một số dữ liệu trong thế giới thực - thì khoảng cách Kolmogorov đến phân phối mô hình rất dễ tính toán. (Khoảng cách KR sẽ khó tính hơn một chút và khoảng cách BL có thể là không thể về mặt thực tế.)

Vì vậy, câu hỏi của tôi (cuối cùng) là, có những lý do khác, hoặc thực tế hay lý thuyết, để ủng hộ khoảng cách Kolmogorov (hoặc một số khoảng cách khác) cho mục đích thống kê?


1
Tôi thích câu hỏi, có thể đã có hầu hết các câu trả lời có thể có trong câu hỏi ... bạn có ý tưởng về loại câu trả lời / phát triển bạn muốn không?
cướp girard

1
Không cụ thể lắm. Tôi khá thờ ơ với các số liệu thống kê và một trong những lý do của tôi để hỏi là tìm hiểu các tiêu chí mà các nhà thống kê sẽ sử dụng để chọn giữa các số liệu khác nhau. Vì tôi đã mô tả một lợi thế thực tế quan trọng của 1 (bạn thực sự có thể tính toán nó) Tôi đặc biệt quan tâm đến các động lực lý thuyết. Nói, là thông tin được cung cấp bởi các ước tính về khoảng cách Kolmogorov thường xuyên sử dụng trực tiếp trong các ứng dụng?
Đánh dấu Meckes

Tôi quên kết thúc bình luận trước đây của mình với ít nhiều rõ ràng: và nếu vậy, làm thế nào?
Mark Meckes

Tôi chỉ đọc lại bình luận dài của tôi ở trên và nhận ra rằng câu hỏi cuối cùng tôi nêu ra cũng giống như lý thuyết thực tế. Trong mọi trường hợp, đó là một trong những loại vấn đề tôi muốn tìm hiểu.
Mark Meckes

Tôi biết bạn không có nghĩa là toàn diện nhưng bạn có thể thêm thống kê người yêu của Anderson (xem en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Điều này khiến tôi nhớ đến một bài báo từ Jager và Wellner (xem projecteuclid.org/, ) mở rộng / khái quát hóa thống kê Anderson yêu dấu (và bao gồm cả sự chỉ trích cao hơn về Tukey) ...
robin girard

Câu trả lời:


12

Dấu,

lý do chính mà tôi biết về việc sử dụng KS là vì nó phát sinh tự nhiên từ các định lý Glivenko-Cantelli trong các quy trình thực nghiệm đơn biến. Tài liệu tham khảo tôi muốn giới thiệu là AWvan der Vaart "Thống kê tiệm cận", ch. 19. Một chuyên khảo nâng cao hơn là "Sự hội tụ yếu và quá trình thực nghiệm" của Wellner và van der Vaart.

Tôi muốn thêm hai ghi chú nhanh:

  1. một thước đo khoảng cách khác thường được sử dụng trong các bản phân phối đơn biến là khoảng cách Cramer-von Mises, đó là khoảng cách L ^ 2;
  2. trong không gian vectơ nói chung khoảng cách khác nhau được sử dụng; không gian quan tâm trong nhiều giấy tờ là đánh bóng. Giới thiệu rất hay là "Sự hội tụ của các biện pháp xác suất" của Billingsley.

Tôi xin lỗi nếu tôi không thể cụ thể hơn. Tôi hi vọng cái này giúp được.


2
Hai ghi chú nhanh trên ghi chú của bạn. 1. Khoảng cách C-vM chính xác là anh em họ L ^ 2 của Kolmogorov (L ^ infinite) và (univariate) KR (L ^ 1), và do đó nội suy giữa chúng. 2. Một lợi thế tôi không đề cập đến khoảng cách KR và BL là chúng khái quát hóa tự nhiên hơn đến các không gian chiều cao hơn.
Đánh dấu Meckes

Về 1., điều đó đúng. Về 2. Về nguyên tắc, tất cả các khoảng cách trên có thể chuyển sang R ^ n, tuy nhiên tôi không biết về các thử nghiệm không tham số phổ biến dựa trên bất kỳ khoảng cách nào . Sẽ rất thú vị nếu biết nếu có.
vui vẻ

8

Các vấn đề tính toán là đối số mạnh nhất mà tôi đã nghe theo cách này hay cách khác. Ưu điểm lớn nhất của khoảng cách Kolmogorov là rất dễ tính toán phân tích cho hầu hết các CDF. Hầu hết các số liệu khoảng cách khác không có biểu thức dạng đóng trừ khi, đôi khi, trong trường hợp Gaussian.

Khoảng cách Kolmogorov của một mẫu cũng có phân phối lấy mẫu đã biết được đưa ra CDF (tôi không nghĩ rằng hầu hết các mẫu khác làm), cuối cùng có liên quan đến quá trình Wiener. Đây là cơ sở cho thử nghiệm Kolmogorov-Smirnoff để so sánh một mẫu với phân phối hoặc hai mẫu với nhau.

Trên một ghi chú phân tích chức năng nhiều hơn, định mức sup là tốt ở chỗ (như bạn đã đề cập) về cơ bản nó xác định sự hội tụ thống nhất. Điều này cho phép bạn hội tụ quy tắc ngụ ý hội tụ theo chiều, và do đó, nếu bạn thông minh về cách bạn xác định chuỗi chức năng của mình, bạn có thể làm việc trong RKHS và sử dụng tất cả các công cụ tuyệt vời cung cấp.


8

Tóm lại , câu trả lời của tôi là: nếu bạn có một biểu hiện rõ ràng hoặc có thể tìm ra một số cách đo khoảng cách của bạn ("sự khác biệt" mà nó mang lại), thì bạn có thể nói nó tốt hơn cho cái gì. Một cách bổ sung khác để phân tích và so sánh thử nghiệm như vậy là lý thuyết minimax.

Cuối cùng, một số thử nghiệm sẽ tốt cho một số lựa chọn thay thế và một số cho những người khác. Đối với một tập hợp thay thế nhất định, đôi khi có thể hiển thị nếu thử nghiệm của bạn có thuộc tính tối ưu trong trường hợp xấu nhất: đây là lý thuyết minimax.


Một số chi tiết

Do đó, bạn có thể nói về các thuộc tính của hai thử nghiệm khác nhau bằng cách liên quan đến bộ thay thế mà chúng là minimax (nếu tồn tại thay thế đó), nghĩa là (sử dụng từ của Donoho và Jin) bằng cách so sánh "boudary phát hiện tối ưu" của chúng http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Hãy để tôi đi khoảng cách bằng khoảng cách:

  1. Khoảng cách KS thu được tính toán tối đa của sự khác biệt giữa cdf thực nghiệm và cdf. Là một suppremum, nó sẽ rất nhạy cảm với các lựa chọn thay thế cục bộ (thay đổi cục bộ trong cdf) nhưng không thay đổi toàn cầu (ít nhất là sử dụng khoảng cách L2 giữa cdf sẽ ít cục bộ hơn (Tôi có mở cửa không?)). Tuy nhiên, điều quan trọng nhất là sử dụng cdf. Điều này ngụ ý một sự bất cân xứng: bạn coi trọng hơn những thay đổi trong phần đuôi của bản phân phối.

  2. Số liệu Wassertein (ý của Kantorovitch Rubinstein là gì?) Http://en.wikipedia.org/wiki/Wasserstein_metric có mặt ở khắp nơi và do đó khó so sánh.

    • Đối với trường hợp cụ thể của W2, nó đã được sử dụng trong http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 và nó có liên quan đến khoảng cách L2 đến nghịch đảo của cdf. Sự hiểu biết của tôi là nó mang lại nhiều trọng lượng hơn cho đuôi nhưng tôi nghĩ bạn nên đọc bài báo để biết thêm về nó.
    • Đối với trường hợp khoảng cách L1 giữa hàm mật độ, nó sẽ phụ thuộc rất nhiều vào cách bạn ước tính hàm răng của bạn từ dữ liệu ... nhưng nếu không, nó dường như là một "bài kiểm tra cân bằng" không quan trọng đối với đuôi.

Để nhớ lại và mở rộng nhận xét tôi đã hoàn thành câu trả lời:

Tôi biết bạn không có nghĩa là toàn diện nhưng bạn có thể thêm thống kê người yêu của Anderson (xem http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Điều này khiến tôi nhớ đến một bài báo từ Jager và Wellner (xem http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) mở rộng / tổng quát về thống kê Anderson chỉ trích cao hơn về Tukey). Những lời chỉ trích cao hơn đã được chứng minh là minimax cho một loạt các lựa chọn thay thế và điều tương tự cũng được thực hiện bởi Jager và Wellner cho sự kéo dài của họ. Tôi không nghĩ rằng tài sản minimax đã được hiển thị cho thử nghiệm Kolmogorov. Dù sao, việc hiểu loại thay thế mà bài kiểm tra của bạn là minimax giúp bạn biết đâu là điểm mạnh của nó, vì vậy bạn nên đọc bài viết trên ..


1
Vâng, cái mà tôi gọi là khoảng cách Kantorovitch-Rubinstein cũng được gọi là khoảng cách L ^ 1 Wasserstein hoặc W1. Nó đi theo nhiều tên khác nữa.
Mark Meckes

3
Chỉ cần làm rõ cho bất kỳ ai không quen thuộc với khoảng cách Wasserstein, người đọc câu trả lời này và vui mừng: khoảng cách L ^ 2 Wasserstein (W2) không giống với khoảng cách Cramer-von Mises.
Mark Meckes

4

FF

FF^F F =F

supx|Fn(x)F^(x)|.
F^F^=F

3

Tôi không thể cho bạn thêm lý do để sử dụng bài kiểm tra Kolmogorov - Smirnov. Nhưng, tôi có thể cho bạn một lý do quan trọng để không sử dụng nó. Nó không phù hợp với đuôi của phân phối tốt. Về vấn đề này, một thử nghiệm phù hợp phân phối vượt trội là Anderson-Darling. Là một thứ hai tốt nhất, bài kiểm tra Chi Square là khá tốt. Cả hai đều được coi là vượt trội hơn nhiều so với thử nghiệm KS về vấn đề này.


2

Từ quan điểm phân tích chức năng và lý thuyết đo lường, khoảng cách loại không xác định các bộ có thể đo được trên các không gian của hàm (không gian vô hạn chiều lỏng phụ gia đếm được trong lớp phủ bóng số liệu). Điều này chắc chắn loại bỏ mọi cách giải thích có thể đo lường được về khoảng cách của các lựa chọn 2 & 3.Lp

Tất nhiên Kolomogorov, sáng hơn nhiều so với bất kỳ ai trong chúng ta đăng, đặc biệt là bản thân tôi, đã lường trước điều này. Điểm thông minh là trong khi khoảng cách trong thử nghiệm KS là giống , thì định mức thống nhất không được sử dụng để xác định các bộ có thể đo được. Thay vào đó, các bộ là một phần của quá trình lọc ngẫu nhiên về sự khác biệt giữa các phân phối được đánh giá ở các giá trị quan sát được; tương đương với vấn đề thời gian dừng.L0

Nói tóm lại, khoảng cách định mức thống nhất của lựa chọn 1 là thích hợp hơn vì thử nghiệm mà nó ngụ ý tương đương với vấn đề thời gian dừng, chính nó tạo ra xác suất có thể tính toán được. Khi các lựa chọn 2 & 3 không thể xác định các tập hợp con có thể đo được của các hàm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.