Tôi đang gặp khó khăn để hiểu lời nguyền của chiều. Cụ thể, tôi đã xem qua nó trong khi thực hiện scikit-learn
hướng dẫn trong python. Ai đó có thể vui lòng giải thích dưới đây một cách đơn giản hơn? Xin lỗi, tôi đã cố gắng hiểu trong thời gian dài nhất và không thể hiểu làm thế nào họ đưa ra phép tính cho số lượng ví dụ đào tạo để đạt được một công cụ ước tính KNN hiệu quả?
Đây là lời giải thích:
Để một công cụ ước tính có hiệu quả, bạn cần khoảng cách giữa các điểm lân cận nhỏ hơn một số giá trị d, điều này phụ thuộc vào vấn đề. Trong một chiều, điều này đòi hỏi trung bình n ~ 1 / d điểm. Trong ngữ cảnh của ví dụ KNN ở trên, nếu dữ liệu được mô tả chỉ bằng một tính năng với các giá trị nằm trong khoảng từ 0 đến 1 và với n quan sát đào tạo, thì dữ liệu mới sẽ không còn quá 1 / n. Do đó, quy tắc quyết định lân cận gần nhất sẽ có hiệu lực ngay khi 1 / n nhỏ so với quy mô của các biến thể tính năng giữa các lớp.
Nếu số lượng tính năng là p, thì bây giờ bạn yêu cầu n ~ 1 / d ^ p điểm. Giả sử rằng chúng tôi yêu cầu 10 điểm trong một chiều: Bây giờ cần 10 ^ p điểm theo kích thước p để mở khoảng trống [0, 1]. Khi p trở nên lớn, số lượng điểm đào tạo cần thiết cho một người ước lượng tốt sẽ tăng theo cấp số nhân.
EDIT: cũng là dấu ngã ( ~
) được cho là đại diện gần đúng trong ví dụ đó? hoặc toán tử python tilde?