Làm thế nào để kiểm tra tính đồng nhất trong nhiều chiều?


13

Kiểm tra tính đồng nhất là một cái gì đó phổ biến, tuy nhiên tôi tự hỏi các phương pháp để làm điều đó cho một đám mây đa chiều là gì.


Câu hỏi thú vị. Bạn đang xem xét các mục độc lập?

1
@Procrastinator Tôi đang nghĩ về điểm này ngay bây giờ. Cố gắng tìm hiểu xem có thể có sự đồng nhất mà không có sự độc lập. Bất kỳ gợi ý đều được chào đón.
gui11aume

4
Vâng, có thể có sự đồng nhất mà không cần độc lập. Ví dụ, mẫu từ các đơn vị -cube bằng cách tạo ra một mạng lưới thống nhất -cubes che và bù đắp nguồn gốc của nó theo một phân bố đều trên khối lập phương. Giữ lại trung tâm của những -cubes nằm trong khối đơn vị. Nếu bạn thích, mẫu ngẫu nhiên từ họ. Tất cả các điểm có cơ hội được lựa chọn như nhau: phân phối là thống nhất. Kết quả cũng có vẻ đồng nhất, nhưng vì không có hai điểm nào có thể nằm trong khoảng cách của nhau, nên rõ ràng các điểm không độc lập. nϵRnϵϵϵ
whuber

Câu trả lời:


14

Phương thức tiêu chuẩn sử dụng hàm K của Ripley hoặc một cái gì đó có nguồn gốc từ nó như hàm L. Đây là một âm mưu tóm tắt số lượng lân cận trung bình của các điểm là một hàm cách nhau tối đa ( ). Đối với phân phối đồng đều theo chiều, trung bình đó phải hoạt động như : và nó sẽ luôn dành cho nhỏ . Nó rời khỏi hành vi như vậy do phân cụm, các hình thức không độc lập không gian khác và các hiệu ứng cạnh (từ đó rất quan trọng để xác định khu vực được lấy mẫu bởi các điểm). Bởi vì biến chứng này - mà trở nên tồi tệ hơn khi nρnρnρntăng - trong hầu hết các ứng dụng, một dải tin cậy được dựng lên cho hàm null K thông qua mô phỏng và chức năng K được quan sát được đặt quá mức để phát hiện các chuyến du ngoạn. Với một số suy nghĩ và kinh nghiệm, các chuyến du ngoạn có thể được giải thích theo xu hướng cụm hoặc không ở khoảng cách nhất định.

Hình 1

Ví dụ về hàm K và hàm L liên quan của nó từ Dixon (2001), ibid. Hàm L được xây dựng sao cho cho phân bố đồng đều là đường ngang ở mức 0: một tham chiếu trực quan tốt. Các đường đứt nét là các dải tin cậy cho khu vực nghiên cứu cụ thể này, được tính toán thông qua mô phỏng. Dấu vết màu xám là hàm L cho dữ liệu. Chuyến tham quan tích cực ở khoảng cách 0-20 m cho thấy một số cụm ở những khoảng cách này.L(ρ)ρ

Tôi đã đăng một ví dụ hoạt động để trả lời một câu hỏi liên quan tại /stats//a/7984 , trong đó một âm mưu xuất phát từ hàm K để phân phối đồng đều trên đa tạp hai chiều được nhúng trong là ước tính bằng mô phỏng.R3

Trong đó R, các hàm spatstatkestk3esttính toán hàm K cho n = 3 , tương ứng. Trong hơn 3 chiều, bạn có thể tự mình thực hiện, nhưng các thuật toán sẽ hoàn toàn giống nhau. Bạn có thể thực hiện các tính toán từ một ma trận khoảng cách như được tính toán (với hiệu quả vừa phải) bằng cách .n=2n=3stats::dist


Bạn đã bao giờ tìm ra mối quan hệ giữa cây cầu Brown và các lô bạn thể hiện trong câu trả lời bạn liên kết đến chưa?
gui11aume

13

Hóa ra câu hỏi khó hơn tôi nghĩ. Tuy nhiên, tôi đã làm bài tập về nhà và sau khi nhìn xung quanh, tôi đã tìm thấy hai phương pháp ngoài chức năng của Ripley để kiểm tra tính đồng nhất trong nhiều chiều.

Tôi đã thực hiện một gói R được gọi là unfthực hiện cả hai thử nghiệm. Bạn có thể tải xuống từ github tại https://github.com/gui11aume/unf . Một phần lớn của nó là trong C vì vậy bạn sẽ cần phải biên dịch nó trên máy của bạn R CMD INSTALL unf. Các bài viết mà việc thực hiện dựa trên định dạng pdf trong gói.

Phương pháp đầu tiên xuất phát từ một tài liệu tham khảo được đề cập bởi @Procrastinator ( Kiểm tra tính đồng nhất đa biến và các ứng dụng của nó, Liang et al., 2000 ) và chỉ cho phép kiểm tra tính đồng nhất trên hypercube đơn vị. Ý tưởng là thiết kế các số liệu thống kê sai lệch Gaussian không có triệu chứng theo định lý Giới hạn trung tâm. Điều này cho phép tính toán thống kê , là cơ sở của thử nghiệm.χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

Cách tiếp cận thứ hai ít thông thường hơn và sử dụng cây bao trùm tối thiểu . Công việc ban đầu được Friedman & Rafsky thực hiện vào năm 1979 (tham khảo trong gói) để kiểm tra xem hai mẫu đa biến có đến từ cùng một phân phối hay không. Hình ảnh dưới đây minh họa nguyên tắc.

tính đồng nhất

Điểm từ hai mẫu bivariate được vẽ bằng màu đỏ hoặc màu xanh, tùy thuộc vào mẫu ban đầu của chúng (bảng bên trái). Cây bao trùm tối thiểu của mẫu gộp trong hai chiều được tính toán (bảng giữa). Đây là cây có tổng chiều dài cạnh tối thiểu. Cây bị phân hủy trong các cây con trong đó tất cả các điểm có cùng nhãn (bảng bên phải).

Trong hình bên dưới, tôi chỉ ra một trường hợp các chấm màu xanh được tổng hợp, làm giảm số lượng cây ở cuối quá trình, như bạn có thể thấy trên bảng bên phải. Friedman và Rafsky đã tính toán phân bố tiệm cận của số lượng cây mà người ta thu được trong quy trình, cho phép thực hiện một thử nghiệm.

không đồng đều

Ý tưởng này để tạo ra một thử nghiệm chung về tính đồng nhất của một mẫu đa biến đã được Smith và Jain phát triển vào năm 1984 và được Ben Pfaff thực hiện trong C (tham khảo trong gói). Mẫu thứ hai được tạo ra đồng đều trong vỏ lồi gần đúng của mẫu đầu tiên và thử nghiệm của Friedman và Rafsky được thực hiện trên nhóm hai mẫu.

Ưu điểm của phương pháp là nó kiểm tra tính đồng nhất trên mọi hình dạng đa biến lồi và không chỉ trên hypercube. Nhược điểm mạnh, là thử nghiệm có thành phần ngẫu nhiên vì mẫu thứ hai được tạo ngẫu nhiên. Tất nhiên, người ta có thể lặp lại bài kiểm tra và tính trung bình các kết quả để có được câu trả lời có thể lặp lại, nhưng điều này không tiện dụng.

Tiếp tục phiên R trước, đây là cách nó diễn ra.

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

Vui lòng sao chép / fork mã từ github.


1
Tổng quan tuyệt vời, cảm ơn bạn! Đối với thế hệ tương lai, tôi cũng tìm thấy này bài viết là một hữu ích "thực tế" Tóm tắt (không liên kết với các tác giả dưới mọi hình thức).
MInner

3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2


1
2n

@whuber tôi không nghĩ chúng ta đã giải quyết được số lượng ô tối thiểu cần là bao nhiêu và một số kích thước không nhất thiết có nghĩa là lớn ở đây. Có thể chúng ta chỉ đang đối phó với 3 hoặc 4.
Michael R. Chernick

5
Câu trả lời của bạn trở nên hữu ích hơn cho tất cả người đọc khi bạn phân định phạm vi và khả năng ứng dụng của nó. (Một chiến lược thay thế, theo tinh thần tư vấn thống kê tốt, là sử dụng các nhận xét để hỏi OP về số lượng kích thước có thể và sau đó điều chỉnh câu trả lời của bạn cho điều đó.) (+1 để cải thiện.)
whuber

"Sau đó, làm một bài kiểm tra \ Chi ^ 2 cho sự đồng đều." - bạn có thể vui lòng mở rộng về điều đó không? Trong Wikipedia en.wikipedia.org/wiki/Pearson%27s_chi-squared_test chỉ có bài kiểm tra Chi2 về mức độ phù hợp, tính đồng nhất và tính độc lập.
Yaroslav Nikitenko
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.