KNN: 1-láng giềng gần nhất


9

Câu hỏi của tôi là về phân loại hàng xóm gần nhất và là về một tuyên bố được đưa ra trong cuốn sách xuất sắc The Elements of Statistics Learning, của Hastie, Tibshirani và Friedman. Tuyên bố là (trang 465, phần 13.3):

"Bởi vì nó chỉ sử dụng điểm đào tạo gần điểm truy vấn nhất, độ lệch của ước tính lân cận 1 gần nhất thường thấp, nhưng phương sai rất cao."

Cuốn sách có sẵn tại
http://www-stat.stanford.edu/~tibs/ElemStatLearn/doad.html

Để bắt đầu, chúng ta có thể định nghĩa thiên vị và phương sai là gì. Từ câu hỏi "làm thế nào có thể tăng-chiều-tăng-tăng-phương sai-không-tăng-bi-bi" , chúng ta có:

"Trước hết, sai lệch của phân loại là sự khác biệt giữa hàm ước tính trung bình và hàm thực của nó, trong khi phương sai của phân loại là phân kỳ dự kiến ​​của hàm dự đoán ước tính từ giá trị trung bình của nó (nghĩa là phụ thuộc vào phân loại ngẫu nhiên như thế nào lấy mẫu được thực hiện trong tập huấn luyện).

Do đó, sự hiện diện của sai lệch cho thấy một cái gì đó về cơ bản là sai với mô hình, trong khi phương sai cũng rất tệ, nhưng một mô hình có phương sai cao ít nhất có thể dự đoán trung bình tốt. "

Ai đó có thể vui lòng giải thích tại sao phương sai cao và độ lệch thấp cho phân loại lân cận 1 gần nhất không?

Câu trả lời:


13

Độ lệch thấp, bởi vì bạn chỉ khớp mô hình của mình với điểm 1 gần nhất. Điều này có nghĩa là mô hình của bạn sẽ thực sự gần với dữ liệu đào tạo của bạn.

Phương sai rất cao, bởi vì tối ưu hóa chỉ ở 1 điểm gần nhất có nghĩa là xác suất bạn mô hình nhiễu trong dữ liệu của bạn là rất cao. Theo định nghĩa của bạn ở trên, mô hình của bạn sẽ phụ thuộc nhiều vào tập hợp con các điểm dữ liệu mà bạn chọn làm dữ liệu huấn luyện. Nếu bạn chia sẻ lại ngẫu nhiên các điểm dữ liệu bạn chọn, mô hình sẽ khác biệt đáng kể trong mỗi lần lặp. Vì thế

phân kỳ dự kiến ​​của hàm dự đoán ước tính từ giá trị trung bình của nó (nghĩa là mức độ phụ thuộc của phân loại vào việc lấy mẫu ngẫu nhiên được thực hiện trong tập huấn luyện)

sẽ cao, bởi vì mỗi lần mô hình của bạn sẽ khác nhau.

Thí dụ Nói chung, mô hình k-NN phù hợp với một điểm cụ thể trong dữ liệu với N điểm dữ liệu gần nhất trong tập huấn luyện của bạn. Đối với 1-NN điểm này chỉ phụ thuộc vào 1 điểm khác. Ví dụ: bạn muốn chia mẫu của bạn thành hai nhóm (phân loại) - đỏ và xanh. Nếu bạn huấn luyện mô hình của mình cho một điểm p nhất định mà 4 hàng xóm gần nhất sẽ có màu đỏ, xanh dương, xanh lam, xanh lam (tăng dần theo khoảng cách đến p). Sau đó, 4-NN sẽ phân loại điểm của bạn thành màu xanh lam (3 lần màu xanh lam và 1 lần màu đỏ), nhưng mô hình 1-NN của bạn phân loại nó thành màu đỏ, bởi vì màu đỏ là điểm gần nhất. Điều này có nghĩa là, mô hình của bạn thực sự gần với dữ liệu đào tạo của bạn và do đó độ lệch thấp. Nếu bạn tính RSS giữa mô hình của bạn và dữ liệu đào tạo của bạn thì gần bằng 0. Ngược lại, phương sai trong mô hình của bạn cao, bởi vì mô hình của bạn cực kỳ nhạy cảm và gượng gạo. Như đã chỉ ra ở trên, một sự xáo trộn ngẫu nhiên trong bộ huấn luyện của bạn có thể sẽ thay đổi mô hình của bạn một cách đáng kể. Ngược lại, 10-NN sẽ mạnh hơn trong những trường hợp như vậy, nhưng có thể bị cứng. Lựa chọn k nào phụ thuộc vào tập dữ liệu của bạn. Điều này phụ thuộc nhiều vàoBias-Variance-Tradeoff , chính xác liên quan đến vấn đề này.


Cảm ơn @alexvii. Bạn đang nói rằng đối với một điểm mới, trình phân loại này sẽ dẫn đến một điểm mới "bắt chước" bài kiểm tra rất tốt. Và nếu bộ kiểm tra là tốt, dự đoán sẽ gần với sự thật, dẫn đến sai lệch thấp? Chính xác? Hay tôi đang bỏ lỡ điều gì?
FredikLAa

Tôi đã thêm một số thông tin để làm cho quan điểm của tôi rõ ràng hơn.
Alex VII

Một điều nữa: Nếu bạn sử dụng ba người hàng xóm gần nhất so với người hàng xóm gần nhất, bạn sẽ không "chắc chắn" hơn rằng bạn đã đúng và không phân loại quan sát "mới" đến một điểm có thể "không nhất quán" với các điểm khác , và do đó làm giảm sự thiên vị?
FredikLAa

Điều này được giải thích khá rõ trên trang wikipedia dưới điểm K - hàng xóm gần nhất ở gần cuối trang.
Alex VII

11

Bạn nên nhớ rằng trình phân loại Hàng xóm gần nhất thực sự là mô hình lân cận gần nhất phức tạp nhất. Bởi phức tạp nhất, tôi có nghĩa là nó có ranh giới quyết định lởm chởm nhất, và có nhiều khả năng phù hợp nhất. Nếu bạn sử dụng trình phân loại hàng xóm gần nhất N (N = số điểm đào tạo), bạn sẽ phân loại mọi thứ là lớp đa số. Các hoán vị khác nhau của dữ liệu sẽ giúp bạn có cùng một câu trả lời, cung cấp cho bạn một tập hợp các mô hình có phương sai bằng 0 (chúng hoàn toàn giống nhau), nhưng sai lệch cao (tất cả đều sai). Việc giảm cài đặt của K giúp bạn ngày càng gần hơn với dữ liệu huấn luyện (độ lệch thấp), nhưng mô hình sẽ phụ thuộc nhiều hơn vào các ví dụ đào tạo cụ thể được chọn (phương sai cao).


cảm ơn @Matt. Một câu hỏi: làm thế nào để bạn biết rằng sự thiên vị là thấp nhất đối với người hàng xóm gần nhất? Làm thế nào để bạn biết rằng không sử dụng ba hàng xóm gần nhất sẽ tốt hơn về mặt thiên vị?
FredikLAa

Hãy tưởng tượng một vấn đề kNN riêng biệt trong đó chúng ta có một lượng dữ liệu rất lớn bao phủ hoàn toàn không gian mẫu. Bất kỳ điểm kiểm tra nào cũng có thể được phân loại chính xác bằng cách so sánh nó với người hàng xóm gần nhất, trên thực tế là bản sao của điểm kiểm tra. Xu hướng là số không trong trường hợp này. Nếu chúng ta sử dụng nhiều hàng xóm hơn, việc phân loại sai là có thể, kết quả của sự thiên vị ngày càng tăng. Ví dụ này đúng với kích thước tập huấn luyện rất lớn. Trong thực tế, có thể đạt được độ lệch thực nghiệm thấp hơn với một vài hàng xóm khác, nhưng xu hướng chung với nhiều dữ liệu là ít hàng xóm hơn -> độ lệch thấp hơn.
Hạt nhân Wang

3

Đây là một bài viết blog rất thú vị về sự thiên vị và phương sai. Phần 3.1 liên quan đến thuật toán knn và giải thích tại sao k thấp dẫn đến phương sai cao và độ lệch thấp.

Hình 5 rất thú vị: bạn có thể thấy trong thời gian thực mô hình đang thay đổi như thế nào trong khi k đang tăng. Đối với k thấp, có rất nhiều quá mức (một số "đảo" bị cô lập) dẫn đến sai lệch thấp nhưng phương sai cao. Đối với k rất cao, bạn đã có một mô hình mượt mà hơn với phương sai thấp nhưng độ lệch cao. Trong ví dụ này, giá trị k trong khoảng từ 10 đến 20 sẽ đưa ra một mô hình gốc có đủ chung (phương sai tương đối thấp) và đủ chính xác (độ lệch tương đối thấp).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.