Có ai sử dụng số liệu hoặc L .5 để phân cụm, thay vì L 2 không?
Aggarwal và cộng sự,
về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao
cho biết (năm 2001) rằng
luôn được ưu tiên hơn so với chỉ số khoảng cách Euclide L 2 cho các ứng dụng khai thác dữ liệu chiều cao
và tuyên bố rằng hoặc L .1 có thể tốt hơn.
Lý do sử dụng hoặc có thể là lý thuyết hoặc thử nghiệm, ví dụ: độ nhạy cảm với các giấy tờ ngoại lệ / Kabán hoặc các chương trình chạy trên dữ liệu thực hoặc tổng hợp (vui lòng sao chép lại). Một ví dụ hoặc một bức tranh sẽ giúp trực giác của giáo dân tôi.L .5
Câu hỏi này là phần tiếp theo cho câu trả lời của Bob Durrant cho Khi nào là gần nhất-hàng xóm-có ý nghĩa-ngày nay . Như ông nói, sự lựa chọn của sẽ phụ thuộc cả dữ liệu và ứng dụng; Tuy nhiên, báo cáo kinh nghiệm thực tế sẽ hữu ích.
Ghi chú được thêm vào thứ ba ngày 7 tháng 6:
Tôi tình cờ tìm thấy "Phân tích dữ liệu thống kê dựa trên định mức L1 và các phương pháp liên quan", Dodge ed., 2002, 454p, isbn 3764369205 - hàng tá tài liệu hội nghị.
Bất cứ ai cũng có thể phân tích sự tập trung khoảng cách cho các tính năng theo cấp số nhân? Một lý do cho số mũ là ; khác (không phải chuyên gia) là phân phối entropy tối đa ≥ 0; thứ ba là một số bộ dữ liệu thực, cụ thể là Sift, trông có vẻ gần như theo cấp số nhân.