Khoảng cách nào để sử dụng? ví dụ: manhattan, euclidean, Bray-Curtis, v.v.


10

Tôi không phải là một nhà sinh thái học cộng đồng, nhưng những ngày này tôi đang làm việc trên dữ liệu sinh thái cộng đồng.

Điều tôi không thể hiểu, ngoài toán học về những khoảng cách này, là tiêu chí cho từng khoảng cách sử dụng và trong những tình huống có thể áp dụng. Ví dụ, những gì để sử dụng với dữ liệu đếm? Làm thế nào để chuyển đổi góc dốc giữa hai vị trí thành một khoảng cách? Hoặc nhiệt độ hoặc lượng mưa ở hai địa điểm? Các giả định cho mỗi khoảng cách là gì và khi nào nó có ý nghĩa?


Cách đáng tin cậy để hiểu các số liệu khoảng cách, các giả định, ý nghĩa và khả năng ứng dụng của chúng là thiền định về các công thức của chúng. Bạn biết đấy, giải phẫu so sánh đã cho phép dự đoán cách các động vật khác nhau sống và cư xử. Ngoài ra, đọc sách / bài viết về số liệu khoảng cách.
ttnphns

2
Ghi chú Pedantic: BrayTHER Curtis không phải là một khoảng cách mà là một sự khác biệt.
Franck Dernoncourt

Câu trả lời:


12

Thật không may, trong hầu hết các tình huống không có câu trả lời rõ ràng cho câu hỏi của bạn. Đó là, đối với bất kỳ ứng dụng nào, chắc chắn có nhiều số liệu khoảng cách sẽ mang lại câu trả lời tương tự và chính xác. Xem xét rằng có hàng tá, và có thể hàng trăm, số liệu khoảng cách hợp lệ đang được sử dụng tích cực, khái niệm bạn có thể tìm thấy khoảng cách "đúng" không phải là cách hiệu quả để suy nghĩ về vấn đề chọn số liệu khoảng cách phù hợp.

Thay vào đó tôi sẽ tập trung vào việc không chọn sai số liệu khoảng cách. Bạn có muốn khoảng cách của bạn phản ánh "độ lớn tuyệt đối" (ví dụ: bạn quan tâm đến việc sử dụng khoảng cách để xác định cổ phiếu có giá trị trung bình tương tự) hoặc phản ánh hình dạng tổng thể của phản hồi (ví dụ: giá cổ phiếu dao động tương tự theo thời gian, nhưng có thể có giá trị thô hoàn toàn khác nhau)? Kịch bản trước đây sẽ chỉ ra các khoảng cách như Manhattan và Euclidean, trong khi kịch bản sau sẽ chỉ ra khoảng cách tương quan, chẳng hạn.

Nếu bạn biết cấu trúc hiệp phương sai của dữ liệu của bạn thì khoảng cách Mahalanobis có lẽ phù hợp hơn. Đối với dữ liệu hoàn toàn phân loại, có nhiều khoảng cách được đề xuất, ví dụ, khoảng cách phù hợp. Đối với khoảng cách Gower phân loại và liên tục là phổ biến, (theo quan điểm của tôi về mặt lý thuyết có phần không thỏa mãn).

Cuối cùng, theo tôi, phân tích của bạn sẽ được tăng cường nếu bạn chứng minh rằng kết quả và kết luận của bạn là mạnh mẽ đối với việc lựa chọn số liệu khoảng cách (tất nhiên là trong tập hợp các khoảng cách thích hợp). Nếu phân tích của bạn thay đổi mạnh mẽ với những thay đổi tinh tế trong số liệu khoảng cách được sử dụng, nên tiến hành nghiên cứu thêm để xác định lý do cho sự không nhất quán.


1
Bạn có ý nghĩa correlation distancegì? 1- r ?
ttnphns 23/12/13

1
@ttnphns yep, là phổ biến nhất. Điều đáng chú ý là đối với một số liệu tương tự nhất định có ít nhất ba công thức để chuyển đổi thành không giống nhau: (1) Phương pháp của Bhattacharyya , (2) Phương pháp của Kolmogorov và (3) Phương pháp của Matusita . Đây là một lĩnh vực khác mà trong tôi không nghĩ rằng sự lựa chọn thường quan trọng và nếu có, tôi sẽ lo ngại về sự mạnh mẽ của kết quả của mình. 1rρ[1,1]cos1(ρ)1ρ22ρpractice
ahfoss

Trích dẫn cho nhận xét cuối cùng của tôi: Krzanowski (1983). Biometrika, 70 (1), 235--243. Xem trang 236.
ahfoss 23/12/13

1
Được rồi cảm ơn. Kiểm tra câu trả lời này xin vui lòng. Nó khẳng định thực tế rằng r có liên quan chính xác đến khoảng cách euclide thu được trên dữ liệu được tiêu chuẩn hóa (hồ sơ được so sánh), reflect overall shape of the responsetheo cách nói của bạn.
ttnphns 23/12/13

1
Bài đăng tốt. Hai số liệu thực sự có liên quan, như bạn chỉ ra. Để bối cảnh hóa các điểm của bạn cho cuộc thảo luận hiện tại, điểm khác biệt chính là trong các biến khoảng cách Euclide không (thường) tập trung, nhưng công thức tương quan tập trung vào các biến và tỷ lệ theo độ lệch chuẩn của chúng. Do đó, mối tương quan là bất biến đối với các phép biến đổi tuyến tính, trong khi khoảng cách Euclide không nhất thiết phải như vậy.
ahfoss

5

Chọn khoảng cách phù hợp không phải là một nhiệm vụ cơ bản. Khi chúng tôi muốn thực hiện phân tích cụm trên một tập dữ liệu, các kết quả khác nhau có thể xuất hiện bằng các khoảng cách khác nhau, vì vậy điều rất quan trọng là phải chọn khoảng cách nào vì chúng tôi có thể tạo ra một vật phẩm giả tốt có thể nắm bắt tốt sự biến thiên, nhưng thực tế không có ý nghĩa trong vấn đề của chúng tôi.

Các Euclide khoảng cách thích hợp khi tôi có các biến số liên tục và tôi muốn phản ánh khoảng cách tuyệt đối. Khoảng cách này tính đến mọi biến số và không loại bỏ các dư thừa, vì vậy nếu tôi có ba biến giải thích giống nhau (có tương quan), tôi sẽ cân nhắc hiệu ứng này bằng ba. Hơn nữa, khoảng cách này không phải là bất biến tỷ lệ, vì vậy nói chung tôi phải chia tỷ lệ trước đó để sử dụng khoảng cách.
Ví dụ sinh thái học: Chúng tôi có các quan sát khác nhau từ nhiều địa phương, trong đó các chuyên gia đã lấy mẫu của một số yếu tố vi sinh, vật lý và hóa học. Chúng tôi muốn tìm các mô hình trong hệ sinh thái. Các yếu tố này có mối tương quan cao, nhưng chúng tôi biết mọi người đều có liên quan, vì vậy chúng tôi không muốn loại bỏ những dư thừa này. Chúng tôi sử dụng khoảng cách Euclide với dữ liệu được thu nhỏ để tránh ảnh hưởng của các đơn vị.

Các Mahalanobis khoảng cách thích hợp khi tôi có các biến số liên tục và tôi muốn phản ánh khoảng cách tuyệt đối, nhưng chúng tôi muốn loại bỏ dư thừa. Nếu chúng ta có các biến lặp lại, hiệu ứng lặp đi lặp lại của chúng sẽ biến mất.

Gia đình Hellinger , Hồ sơ loàikhoảng cách hợp âm là phù hợp khi chúng ta muốn nhấn mạnh vào sự khác biệt giữa các biến, khi chúng ta muốn phân biệt các cấu hình. Các khoảng cách này có trọng số theo tổng số lượng của mỗi quan sát, theo cách mà khoảng cách là nhỏ khi biến đổi theo các biến, các cá thể giống nhau hơn, mặc dù ở cường độ tuyệt đối rất khác nhau. Coi chừng! Những khoảng cách này phản ánh rất rõ sự khác biệt giữa các cấu hình, nhưng mất đi hiệu ứng cường độ. Chúng có thể rất hữu ích khi chúng ta có các cỡ mẫu khác nhau.
Ví dụ sinh thái học: Chúng tôi muốn nghiên cứu hệ động vật của nhiều vùng đất và chúng tôi có một ma trận dữ liệu của một kho lưu trữ của dạ dày (lấy mẫu các vị trí trong các hàng và tên loài trong các cột). Ma trận được đặc trưng bởi có nhiều số không và độ lớn khác nhau vì một số địa phương có một số loài và những loài khác có loài khác. Chúng ta có thể sử dụng khoảng cách Hellinger.

Bray-Curtis khá giống nhau, nhưng nó phù hợp hơn khi chúng ta muốn phân biệt các cấu hình và cũng tính đến độ lớn tương đối.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.