Khi nào người ta sẽ sử dụng khoảng cách Manhattan như đối diện với khoảng cách Euclide?


18

Tôi đang cố gắng tìm kiếm một lập luận tốt về lý do tại sao người ta sẽ sử dụng khoảng cách Manhattan trên khoảng cách Euclide trong Machine Learning.

Điều gần nhất mà tôi tìm thấy cho một cuộc tranh luận tốt cho đến nay là về bài giảng MIT này .

Ở 36:15 bạn có thể thấy trên các slide tuyên bố sau:

"Thông thường sử dụng số liệu Euclide; Manhattan có thể phù hợp nếu các kích thước khác nhau không thể so sánh được. "

Ngay sau khi giáo sư nói rằng, vì số chân của một loài bò sát thay đổi từ 0 đến 4 (trong khi các tính năng khác là nhị phân, chỉ thay đổi từ 0 đến 1), tính năng "số chân" sẽ có mức cao hơn nhiều trọng lượng nếu khoảng cách Euclide được sử dụng. Chắc chắn, đó là thực sự đúng. Nhưng người ta cũng sẽ gặp vấn đề đó nếu sử dụng khoảng cách Manhattan (chỉ có vấn đề đó sẽ được giảm nhẹ một chút vì chúng ta không bình phương sự khác biệt như chúng ta làm trên khoảng cách Euclide).

Cách tốt hơn để giải quyết vấn đề trên là bình thường hóa tính năng "số chân" để giá trị của nó sẽ luôn nằm trong khoảng từ 0 đến 1.

Do đó, vì có một cách tốt hơn để giải quyết vấn đề, nên tôi cảm thấy như lập luận về việc sử dụng khoảng cách Manhattan trong trường hợp này thiếu một điểm mạnh hơn, ít nhất là theo ý kiến ​​của tôi.

Có ai thực sự biết tại sao và khi nào ai đó sẽ sử dụng khoảng cách Manhattan so với Euclid không? Bất cứ ai có thể cho tôi một ví dụ trong đó sử dụng khoảng cách Manhattan sẽ mang lại kết quả tốt hơn?

Câu trả lời:


4

Theo bài báo thú vị này, khoảng cách Manhattan (chỉ tiêu L1) có thể thích hợp hơn khoảng cách Euclide (định mức L2) cho trường hợp dữ liệu chiều cao:

https://bib.dbvis.de/uploadedFiles/155.pdf

Các tác giả của bài báo thậm chí còn tiến thêm một bước và đề nghị sử dụng khoảng cách định mức Lk, với giá trị phân số là k, cho dữ liệu rất cao để cải thiện kết quả của các thuật toán dựa trên khoảng cách, như phân cụm.


stats.stackexchange.com/a/99191 cung cấp câu trả lời đầy đủ hơn
mic

3

Tôi có thể đề xuất một vài ý tưởng, từ wikipedia .

  1. Nếu bạn muốn đặt ít sự nhấn mạnh hơn vào các ngoại lệ, khoảng cách manhattan sẽ cố gắng giảm tất cả các lỗi bằng nhau vì độ dốc có cường độ không đổi.
  2. Nếu tiếng ồn của bạn được phân phối Laplacian, MLE được tìm thấy bằng cách giảm thiểu ước tính manhattan.

3

Tôi đã tìm thấy thứ gì đó có thể là trực giác về vấn đề này trong Học máy thực hành với Scikit-Learn và TensorFlow

Cả RMSE và MAE đều là cách để đo khoảng cách giữa hai vectơ: vectơ dự đoán và vectơ của các giá trị đích. Các biện pháp khoảng cách khác nhau, hoặc định mức, có thể:

  • Tính toán gốc của một tổng bình phương (RMSE) tương ứng với chỉ tiêu Euclidian: đó là khái niệm khoảng cách bạn quen thuộc. Nó cũng được gọi là định mức ℓ2 (...)

  • Tính tổng các tuyệt đối (MAE) tương ứng với định mức ℓ1, (...). Đôi khi nó được gọi là định mức Manhattan vì nó đo khoảng cách giữa hai điểm trong thành phố nếu bạn chỉ có thể đi dọc theo các khối thành phố trực giao.

  • Tổng quát hơn, (...) 0 chỉ đưa ra số phần tử khác không trong vectơ và cho giá trị tuyệt đối tối đa trong vectơ.

  • Chỉ số định mức càng cao, nó càng tập trung vào các giá trị lớn và bỏ qua các giá trị nhỏ. Đây là lý do tại sao RMSE nhạy cảm hơn với các ngoại lệ so với MAE. Nhưng khi các ngoại lệ rất hiếm theo cấp số nhân (như trong đường cong hình chuông), RMSE hoạt động rất tốt và thường được ưa thích.


2

Việc sử dụng khoảng cách Manhattan phụ thuộc rất nhiều vào loại hệ thống phối hợp mà tập dữ liệu của bạn đang sử dụng. Trong khi khoảng cách Euclide cho khoảng cách ngắn nhất hoặc tối thiểu giữa hai điểm, Manhattan có những triển khai cụ thể.

Ví dụ: nếu chúng ta sử dụng bộ dữ liệu Chess, việc sử dụng khoảng cách Manhattan phù hợp hơn khoảng cách Euclide. Một cách sử dụng khác là khi muốn biết khoảng cách giữa các ngôi nhà cách nhau vài dãy nhà.

Ngoài ra, bạn có thể muốn xem xét khoảng cách Manhattan nếu các biến đầu vào không giống nhau về loại (như tuổi, giới tính, chiều cao, v.v.). Do lời nguyền của chiều, chúng ta biết rằng khoảng cách Euclide trở thành một lựa chọn kém khi số lượng kích thước tăng lên.

Vì vậy, tóm lại: khoảng cách Manhattan thường chỉ hoạt động nếu các điểm được sắp xếp theo dạng lưới và vấn đề chúng ta đang làm việc ưu tiên nhiều hơn cho khoảng cách giữa các điểm chỉ cùng với lưới, chứ không phải khoảng cách hình học.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.