Tôi hiểu thế nào là "lời nguyền của chiều" và tôi đã thực hiện một số vấn đề tối ưu hóa chiều cao và biết thách thức của các khả năng theo cấp số nhân.
Tuy nhiên, tôi nghi ngờ nếu "lời nguyền về chiều" tồn tại trong hầu hết dữ liệu trong thế giới thực (hãy tạm gác hình ảnh hoặc video sang một bên, tôi đang nghĩ về dữ liệu như dữ liệu hành vi mua hàng và nhân khẩu học của khách hàng).
Chúng tôi có thể thu thập dữ liệu với hàng ngàn tính năng nhưng ít có khả năng các tính năng có thể trải rộng hoàn toàn một không gian với hàng ngàn kích thước. Đây là lý do tại sao các kỹ thuật giảm kích thước rất phổ biến.
Nói cách khác, rất có thể dữ liệu không chứa mức thông tin theo cấp số nhân, nghĩa là, nhiều tính năng có tương quan cao và nhiều tính năng đáp ứng 80-20 quy tắc (nhiều trường hợp có cùng giá trị).
Trong trường hợp như vậy, tôi nghĩ các phương pháp như KNN vẫn sẽ hoạt động tốt. (Trong hầu hết các cuốn sách "lời nguyền về chiều" nói rằng chiều> 10 có thể có vấn đề. Trong bản demo của họ, họ sử dụng phân phối đồng đều ở tất cả các chiều, trong đó entropy thực sự cao. Tôi nghi ngờ trong thế giới thực điều này sẽ xảy ra.)
Kinh nghiệm cá nhân của tôi với dữ liệu thực là "lời nguyền về chiều" không ảnh hưởng đến phương thức mẫu (như KNN) quá nhiều và trong hầu hết các trường hợp, kích thước ~ 100 vẫn sẽ hoạt động.
Điều này có đúng với người khác không? (Tôi đã làm việc với dữ liệu thực trong các ngành khác nhau trong 5 năm, chưa bao giờ quan sát "tất cả các cặp khoảng cách có giá trị tương tự" như được mô tả trong sách.)