Sự khác biệt chính giữa K-mean và K-láng giềng gần nhất là gì?

86

Tôi biết rằng phương tiện k không được giám sát và được sử dụng để phân cụm vv và k-NN được giám sát. Nhưng tôi muốn biết sự khác biệt cụ thể giữa hai?

machine-learning k-means k-nearest-neighbour

— nsc010
nguồn

1

Một so sánh ngắn gọn: baoqiang.org/?p=579

— Franck Dernoncourt

106

Đây là những phương pháp hoàn toàn khác nhau. Việc cả hai đều có chữ K trong tên của họ là một sự trùng hợp.

K-mean là một thuật toán phân cụm cố gắng phân vùng một tập hợp các điểm thành K tập hợp (các cụm) sao cho các điểm trong mỗi cụm có xu hướng gần nhau. Nó không được giám sát vì các điểm không có phân loại bên ngoài.

Hàng xóm gần nhất của K là thuật toán phân loại (hoặc hồi quy) để xác định phân loại điểm, kết hợp phân loại K điểm gần nhất. Nó được giám sát bởi vì bạn đang cố gắng phân loại một điểm dựa trên sự phân loại đã biết của các điểm khác.

— Bitwise
nguồn

6

Tôi nghĩ rằng có nhiều điểm tương đồng hơn anh chàng này đang cung cấp tín dụng. Cả hai đều sử dụng các phương thức khoảng cách để phân cụm và phân loại đầu vào tương ứng. Đây thường là lý do tại sao chúng được dạy cùng nhau và tại sao các vấn đề về chiều được thảo luận liên quan đến chúng. Phương pháp khoảng cách khác nhau có thể được áp dụng cho cả hai. Thực tế có rất nhiều điểm tương đồng.

— eljusticiero67

@ eljusticiero67 tất nhiên chúng được sử dụng để phân loại đầu vào, điều này được đề cập bởi OP. Và hầu hết các phương pháp học cổ điển đều dựa trên khoảng cách, vì vậy điều này cũng không đáng ngạc nhiên. Lưu ý rằng OP đã quan tâm đến sự khác biệt. Ngoài ra tôi hiểu nó như thể OP đang ám chỉ có thể có sự giống nhau do chữ K trong cả hai tên.

— Bitwise

12

Như Bitwise đã lưu ý trong câu trả lời của họ , k-mean là một thuật toán phân cụm. Nếu nói đến hàng xóm gần nhất (k-NN) thì thuật ngữ này hơi mờ:

trong bối cảnh phân loại, nó là một thuật toán phân loại, như đã lưu ý trong câu trả lời đã nói ở trên
nói chung nó là một vấn đề , trong đó các giải pháp (thuật toán) khác nhau tồn tại

Vì vậy, trong bối cảnh đầu tiên, nói "phân loại k-NN" thực sự có thể có nghĩa là các thuật toán cụ thể cơ bản khác nhau giải quyết vấn đề k-NN và kết quả của chúng được diễn giải cho mục đích phân loại.

Đây là hai điều khác nhau nhưng bạn có thể thấy thú vị rằng thuật toán k-mean là một trong những phương pháp khả thi khác nhau để giải quyết vấn đề k-NN (Marius Muja và David G. Lowe, "Hàng xóm gần nhất gần đúng với cấu hình thuật toán tự động" , trong Hội nghị quốc tế về lý thuyết và ứng dụng thị giác máy tính (VISAPP'09), 2009 PDF )

— BartoszKP
nguồn

0

Bạn có thể có một phương tiện k được giám sát. Bạn có thể xây dựng centroid (như trong k-mean) dựa trên dữ liệu được dán nhãn của bạn. Không có gì ngăn cản bạn. Nếu bạn muốn cải thiện điều này, không gian Euclide và khoảng cách Euclide có thể không cung cấp cho bạn kết quả tốt nhất. Bạn sẽ cần chọn không gian của mình (ví dụ có thể là không gian Riemannian) và xác định khoảng cách giữa các điểm (và thậm chí xác định "điểm"). Hai cuối cùng là chủ đề nghiên cứu và chúng cũng phụ thuộc vào loại (tính chất) của dữ liệu (tín hiệu) bạn có.

— Anton Andreev
nguồn

-2

K-mean có thể tạo thông tin cụm cho các nút lân cận trong khi KNN không thể tìm thấy cụm cho một nút lân cận nhất định.

— Rti
nguồn

-2

k Phương tiện có thể được sử dụng làm giai đoạn huấn luyện trước khi knn được triển khai trong giai đoạn phân loại thực tế. K có nghĩa là tạo các lớp được đại diện bởi nhãn trung tâm và lớp của các mẫu thuộc về mỗi lớp. knn sử dụng các tham số này cũng như số k để phân loại một mẫu mới chưa thấy và gán nó cho một trong các lớp k được tạo bởi thuật toán K có nghĩa là

— mohatef
nguồn