Câu hỏi của tôi là về phân loại hàng xóm gần nhất và là về một tuyên bố được đưa ra trong cuốn sách xuất sắc The Elements of Statistics Learning, của Hastie, Tibshirani và Friedman. Tuyên bố là (trang 465, phần 13.3):
"Bởi vì nó chỉ sử dụng điểm đào tạo gần điểm truy vấn nhất, độ lệch của ước tính lân cận 1 gần nhất thường thấp, nhưng phương sai rất cao."
Cuốn sách có sẵn tại
http://www-stat.stanford.edu/~tibs/ElemStatLearn/doad.html
Để bắt đầu, chúng ta có thể định nghĩa thiên vị và phương sai là gì. Từ câu hỏi "làm thế nào có thể tăng-chiều-tăng-tăng-phương sai-không-tăng-bi-bi" , chúng ta có:
"Trước hết, sai lệch của phân loại là sự khác biệt giữa hàm ước tính trung bình và hàm thực của nó, trong khi phương sai của phân loại là phân kỳ dự kiến của hàm dự đoán ước tính từ giá trị trung bình của nó (nghĩa là phụ thuộc vào phân loại ngẫu nhiên như thế nào lấy mẫu được thực hiện trong tập huấn luyện).
Do đó, sự hiện diện của sai lệch cho thấy một cái gì đó về cơ bản là sai với mô hình, trong khi phương sai cũng rất tệ, nhưng một mô hình có phương sai cao ít nhất có thể dự đoán trung bình tốt. "
Ai đó có thể vui lòng giải thích tại sao phương sai cao và độ lệch thấp cho phân loại lân cận 1 gần nhất không?