Tôi đang cố gắng tìm kiếm một lập luận tốt về lý do tại sao người ta sẽ sử dụng khoảng cách Manhattan trên khoảng cách Euclide trong Machine Learning.
Điều gần nhất mà tôi tìm thấy cho một cuộc tranh luận tốt cho đến nay là về bài giảng MIT này .
Ở 36:15 bạn có thể thấy trên các slide tuyên bố sau:
"Thông thường sử dụng số liệu Euclide; Manhattan có thể phù hợp nếu các kích thước khác nhau không thể so sánh được. "
Ngay sau khi giáo sư nói rằng, vì số chân của một loài bò sát thay đổi từ 0 đến 4 (trong khi các tính năng khác là nhị phân, chỉ thay đổi từ 0 đến 1), tính năng "số chân" sẽ có mức cao hơn nhiều trọng lượng nếu khoảng cách Euclide được sử dụng. Chắc chắn, đó là thực sự đúng. Nhưng người ta cũng sẽ gặp vấn đề đó nếu sử dụng khoảng cách Manhattan (chỉ có vấn đề đó sẽ được giảm nhẹ một chút vì chúng ta không bình phương sự khác biệt như chúng ta làm trên khoảng cách Euclide).
Cách tốt hơn để giải quyết vấn đề trên là bình thường hóa tính năng "số chân" để giá trị của nó sẽ luôn nằm trong khoảng từ 0 đến 1.
Do đó, vì có một cách tốt hơn để giải quyết vấn đề, nên tôi cảm thấy như lập luận về việc sử dụng khoảng cách Manhattan trong trường hợp này thiếu một điểm mạnh hơn, ít nhất là theo ý kiến của tôi.
Có ai thực sự biết tại sao và khi nào ai đó sẽ sử dụng khoảng cách Manhattan so với Euclid không? Bất cứ ai có thể cho tôi một ví dụ trong đó sử dụng khoảng cách Manhattan sẽ mang lại kết quả tốt hơn?