Các phương pháp không tham số như K-Recent-Neighbor trong không gian đặc trưng chiều cao


11

Ý tưởng chính của k-Recent-Neighbor tính đến điểm gần nhất và quyết định phân loại dữ liệu theo đa số phiếu. Nếu vậy, thì nó không nên có vấn đề trong dữ liệu chiều cao hơn bởi vì các phương pháp như băm nhạy cảm cục bộ có thể tìm thấy hàng xóm gần nhất một cách hiệu quả.k

Ngoài ra, lựa chọn tính năng với các mạng Bayes có thể làm giảm kích thước của dữ liệu và giúp việc học dễ dàng hơn.

Tuy nhiên, bài viết đánh giá này của John Lafferty trong học tập thống kê chỉ ra rằng việc học không tham số trong không gian đặc trưng chiều cao vẫn còn là một thách thức và chưa được giải quyết.

Điều gì đang xảy ra?


1
Vui lòng cung cấp một tài liệu tham khảo đầy đủ cho bài báo; các tác giả dường như không xuất hiện (nổi bật) trong đó.
Raphael

Câu trả lời:


5

d

50dd1..1000d

Khoảng cách trung bình so với chiều


Tất nhiên. Bạn tăng số lượng điểm trong một siêu cầu có bán kính cố định theo cấp số nhân theo chiều, vì vậy nếu bạn chọn ngẫu nhiên 50 điểm một cách ngẫu nhiên thì điều này phải xảy ra. Do đó, nếu lý luận của bạn là chính xác, việc phân vùng sẽ trở nên dễ dàng nếu tôi có nhiều mẫu; là vậy sao?
Raphael

Tôi tin rằng bạn đã đảo ngược nó. Bằng cách tăng kích thước, tôi GIẢM số lượng điểm trong một siêu cầu. Phân vùng trở nên khó khăn hơn vì thước đo khoảng cách về cơ bản mất đi ý nghĩa của nó (ví dụ mọi thứ ở rất xa).
Nick

kNn|NnSn(k)|n

ndn<<d

Tôi không thấy rằng điều này đúng theo định nghĩa; nó dường như là một quy ước dựa trên kinh nghiệm
Raphael

3

Không phải là một câu trả lời hoàn chỉnh, nhưng trang wikipedia mà bạn đã trích dẫn:

Độ chính xác của thuật toán k-NN có thể bị suy giảm nghiêm trọng do sự hiện diện của các tính năng ồn ào hoặc không liên quan hoặc nếu thang đo tính năng không phù hợp với tầm quan trọng của chúng.

Khả năng xảy ra điều này tăng lên khi có không gian đặc trưng chiều cao.


Nhưng tôi nghĩ với PCA (phân tích thành phần nguyên tắc) hoặc bất kỳ phương pháp nào khác để giảm tính chiều và loại bỏ dữ liệu không liên quan, k-NN vẫn có thể hoạt động. Và ý nghĩa của các trang wikipedia là k-NN ngây thơ sẽ thất bại. Vì vậy, điều này không giải thích các bài đánh giá.
Strin

PCA chắc chắn có thể hoạt động, nhưng không phải trong mọi tình huống.
Dave Clarke
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.