Thật khó để so sánh trực tiếp kNN và hồi quy tuyến tính vì chúng là những thứ rất khác nhau, tuy nhiên, tôi nghĩ điểm mấu chốt ở đây là sự khác biệt giữa "mô hình hóa " và "có giả định về f ( x ) ".f( x )f( x )
Khi làm hồi quy tuyến tính, một cách cụ thể các mô hình , thường một cái gì đó trong những dòng f ( x ) = w x + ε nơi ε là một thuật ngữ tiếng ồn Gaussian. Bạn có thể hiểu rằng mô hình khả năng tối đa tương đương với mô hình lỗi tổng bình phương tối thiểu.f( x )f( X ) = w x + εε
Mặt khác, KNN, như điểm thứ hai của bạn gợi ý, giả định rằng bạn có thể tính gần đúng chức năng đó bằng một hàm hằng số cục bộ - một số đo khoảng cách giữa các ống , mà không mô hình hóa toàn bộ phân phối.x
Nói cách khác, hồi quy tuyến tính thường sẽ có ý tưởng tốt về giá trị của đối với một số x không nhìn thấy từ chỉ giá trị của x , trong khi kNN sẽ cần một số thông tin khác (ví dụ như hàng xóm k), để đưa ra dự đoán về f ( x ) , vì giá trị của x , và chỉ chính giá trị đó, sẽ không cung cấp bất kỳ thông tin nào, vì không có mô hình nào cho f ( x ) .f( x )xxf( x )xf( x )
EDIT: nhắc lại điều này dưới đây để diễn đạt lại rõ ràng hơn (xem bình luận)
Rõ ràng là cả phương pháp hồi quy tuyến tính và phương pháp lân cận gần nhất đều nhằm mục đích dự đoán giá trị của cho x mới . Bây giờ có hai cách tiếp cận. Hồi quy tuyến tính tiếp tục bằng cách giả sử rằng dữ liệu rơi trên một đường thẳng (cộng với một số nhiễu) và do đó giá trị của y bằng giá trị của f ( x ) nhân với độ dốc của đường. Nói cách khác, biểu thức tuyến tính mô hình hóa dữ liệu dưới dạng một đường thẳng.y= f( x )xf( x )
Bây giờ các phương thức lân cận gần nhất không quan tâm đến việc dữ liệu trông như thế nào (không mô hình hóa dữ liệu), nghĩa là, họ không quan tâm liệu đó có phải là một dòng, một parabola, một vòng tròn, v.v. và f ( x 2 ) sẽ tương tự nhau, nếu x 1 và x 2 tương tự nhau. Lưu ý rằng giả định này gần như đúng với hầu hết mọi mô hình, bao gồm tất cả các mô hình tôi đã đề cập ở trên. Tuy nhiên, một phương thức NN không thể cho biết giá trị của f ( x ) liên quan đến x như thế nàof( x1)f( x2)x1x2f( x )x (cho dù đó là một dòng, parabola, v.v.), bởi vì nó không có mô hình của mối quan hệ này, nó chỉ giả định rằng nó có thể được xấp xỉ bằng cách nhìn vào các điểm gần.