Tương tự 2D của độ lệch chuẩn?


19

Hãy xem xét thí nghiệm sau: một nhóm người được đưa ra một danh sách các thành phố và được yêu cầu đánh dấu các vị trí tương ứng trên bản đồ thế giới (không được gắn nhãn). Đối với mỗi thành phố, bạn sẽ nhận được sự phân tán các điểm gần như tập trung tại thành phố tương ứng. Một số thành phố, nói Istanbul, sẽ trưng bày ít tán xạ hơn các thành phố khác, nói Moscow.

Giả sử rằng đối với một thành phố nhất định, chúng ta sẽ có một tập hợp các mẫu 2D , đại diện cho vị trí của thành phố (ví dụ: trong hệ tọa độ cục bộ) trên bản đồ được chỉ định bằng thử nghiệm môn . Tôi muốn biểu thị mức độ "phân tán" của các điểm trong tập hợp này dưới dạng một số duy nhất trong các đơn vị thích hợp (km).( x , y ) i{(xi,yi)}(x,y)i

Đối với bài toán 1D, tôi sẽ chọn độ lệch chuẩn, nhưng liệu có một chất tương tự 2D nào có thể được chọn một cách hợp lý cho tình huống như mô tả ở trên không?


làm một cuộc chinh phục?
RockScience

Tôi đã thêm thẻ không gian cho ví dụ rõ ràng là không gian. Nếu bạn (hoặc bất cứ ai khác) cảm thấy không cần thiết, hãy quay lại bổ sung đó.
Andy W

Câu trả lời:


12

Một điều bạn có thể sử dụng là thước đo khoảng cách từ một điểm trung tâm, , chẳng hạn như giá trị trung bình mẫu của các điểm , hoặc có lẽ là trọng tâm của các điểm quan sát. Sau đó, một biện pháp phân tán sẽ là khoảng cách trung bình từ điểm trung tâm đó:( ¯ x , ¯ y )c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

trong đó . Có nhiều lựa chọn tiềm năng cho một thước đo khoảng cách nhưng chỉ tiêu (ví dụ khoảng cách euclide) có thể là một lựa chọn hợp lý: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Có rất nhiều sự lựa chọn tiềm năng khác, mặc dù. Xem http://en.wikipedia.org/wiki/Norm_%28mathatures%29


Mặc dù khoảng cách sẽ khác không, đây thực sự là một lựa chọn kỳ lạ vì nó không đồng ý trong trường hợp suy biến với độ lệch chuẩn thông thường trong một chiều. Vì vậy, hãy xem xét thay thế. zic2
Alex R.

6

Một tài liệu tham khảo tốt về các số liệu cho phân bố không gian của các mẫu điểm là hướng dẫn sử dụng CrimeStat (đặc biệt cho câu hỏi này, Chương 4 sẽ được quan tâm). Tương tự như Macro số liệu được đề xuất, Độ lệch khoảng cách tiêu chuẩn tương tự như độ lệch chuẩn 2D (sự khác biệt duy nhất là bạn sẽ chia cho "n-2" chứ không phải "n" trong công thức đầu tiên mà Macro đưa ra).

Thử nghiệm ví dụ của bạn thực sự nhắc nhở tôi một chút về cách các nghiên cứu đánh giá Hồ sơ người phạm tội địa lý và do đó, các số liệu được sử dụng trong các tác phẩm đó có thể được quan tâm. Cụ thể, các thuật ngữ chính xác và chính xác được sử dụng khá nhiều và sẽ phù hợp với nghiên cứu. Đoán có thể có độ lệch chuẩn nhỏ (nghĩa là chính xác) nhưng vẫn có độ chính xác rất thấp.


1

Tôi nghĩ bạn nên sử dụng 'Khoảng cách Mahalanobis' thay vì các chỉ tiêu khoảng cách Euclide, vì nó tính đến mối tương quan của tập dữ liệu và là 'bất biến tỷ lệ'. Đây là đường dẫn:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Bạn cũng có thể sử dụng 'Độ sâu nửa không gian'. Nó phức tạp hơn một chút nhưng chia sẻ nhiều đặc tính hấp dẫn. Độ sâu nửa không gian (còn được gọi là Độ sâu vị trí) của một điểm nhất định so với tập dữ liệu P là số điểm tối thiểu của P nằm trong bất kỳ nửa phẳng kín nào được xác định bởi một đường qua a. Dưới đây là các liên kết:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
Tôi hiểu việc sử dụng khoảng cách Mahalanobis khi bạn đang cố gắng xác định xem các điểm cụ thể có "thuộc" tập hợp hay không, nhưng không phải là khoảng cách Euclide trung bình từ trung tâm liên quan chặt chẽ hơn với khái niệm phương sai / độ lệch chuẩn được sử dụng trong một thiết lập đơn biến?
Macro

2
Bạn có nhớ xây dựng các tuyên bố "có tính đến mối tương quan của dữ liệu" và "là bất biến tỷ lệ" không? Những gì liên quan làm một trong những điều này có trong câu hỏi trong tầm tay?
Andy W

Dĩ nhiên, việc mở rộng độ lệch chuẩn lên kích thước cao hơn là cách tính khoảng cách của một điểm cụ thể từ trung tâm dữ liệu - nhưng ở đây chúng tôi đang chuẩn hóa từng điểm, giúp dễ dàng thực hiện phân tích cụm hoặc phát hiện ngoại lệ. Ngoài ra, khoảng cách Mahalanobis thích ứng hơn với các trường hợp phân bố điểm không phải là hình cầu. Đối với các trường hợp đối xứng hình cầu, nó giống như độ lệch chuẩn mở rộng thông thường - trong đó ma trận hiệp phương sai của các điểm dữ liệu giảm xuống ma trận nhận dạng.
VitalStatistix

1

Tôi thực sự gặp phải một vấn đề tương tự gần đây. Có vẻ như bạn muốn một cách để đo lường mức độ các điểm được phân tán theo khu vực. Tất nhiên, đối với một phép đo nhất định, bạn phải nhận ra rằng nếu tất cả các điểm nằm trên một đường thẳng, câu trả lời là 0, vì không có sự đa dạng 2 chiều.

Từ những tính toán tôi đã làm, đây là những gì tôi nghĩ ra:

SxxSyy-Sxy²

Trong trường hợp này, Sxx và Syy lần lượt là phương sai của x và của y, trong khi Sxy giống như phương sai hỗn hợp của x và y.

Để giải thích, giả sử có n phần tử và đại diện cho giá trị trung bình của x và đại diện cho giá trị trung bình của y:xμyμ

Sxx= =1nΣTôi= =1n(x-xμ)²
Syy= =1nΣTôi= =1n(y-yμ)²
Sxy= =1nΣTôi= =1n(x-xμ)(y-yμ)

Hy vọng điều này sẽ làm việc cho bạn.

Ngoài ra, nếu bạn đang tự hỏi làm thế nào để thực hiện nó ở các kích thước cao hơn, như đo khối lượng lan truyền hoặc khối lượng lớn trong 4 chiều, bạn phải tạo thành một ma trận như sau:

Sxx Sxy ...

Syx Syy Syz ...

Szx Szy ...

... ... ... ...

Và tiếp tục cho tuy nhiên nhiều kích thước bạn cần. Bạn sẽ có thể tìm ra các giá trị S được đưa ra các định nghĩa được cung cấp ở trên, nhưng đối với các biến khác nhau.

Khi ma trận được hình thành, lấy định thức, tìm căn bậc hai và bạn đã hoàn thành.


0

Đối với ví dụ cụ thể này - nơi có câu trả lời "chính xác" được xác định trước - tôi sẽ làm việc lại các cộng tác x / y thành tọa độ cực xung quanh thành phố mà chúng được yêu cầu đánh dấu trên bản đồ. Độ chính xác sau đó được đo lại thành phần xuyên tâm (trung bình, sd, v.v.). Một "góc trung bình" cũng có thể được sử dụng để đo độ lệch.

Đối với bản thân tôi, tôi vẫn đang tìm kiếm một giải pháp tốt khi không có điểm trung tâm được xác định trước và không thích ý tưởng về việc truyền trước dữ liệu để tạo ra một centroid.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.