K-nghĩa so với K-nghĩa trực tuyến


15

K-mean là một thuật toán nổi tiếng để phân cụm, nhưng cũng có một biến thể trực tuyến của thuật toán đó (K-mean trực tuyến). Những ưu và nhược điểm của các phương pháp này là gì và khi nào nên được ưu tiên?

Câu trả lời:


11

Phương tiện k trực tuyến (thường được gọi là phương tiện k tuần tự ) và phương tiện k truyền thống rất giống nhau. Sự khác biệt là phương tiện k trực tuyến cho phép bạn cập nhật mô hình khi nhận được dữ liệu mới.

Phương tiện k trực tuyến nên được sử dụng khi bạn mong đợi dữ liệu được nhận từng cái một (hoặc có thể trong khối). Điều này cho phép bạn cập nhật mô hình của mình khi bạn có thêm thông tin về nó. Hạn chế của phương pháp này là nó phụ thuộc vào thứ tự nhận dữ liệu ( ref ).


7

Ấn bản gốc của MacQueen k-mean (lần đầu tiên sử dụng tên "kmeans") là một thuật toán trực tuyến.

MacQueen, JB (1967). "Một số phương pháp để phân loại và phân tích các quan sát đa biến". Kỷ yếu của Hội nghị chuyên đề Berkeley lần thứ 5 về Thống kê toán học và Xác suất 1. Nhà xuất bản Đại học California. tr 281 281297

Sau khi gán từng điểm, giá trị trung bình được cập nhật tăng dần bằng cách sử dụng công thức tính trung bình trọng số đơn giản (giá trị trung bình cũ có trọng số n, quan sát mới được tính bằng 1, nếu giá trị trung bình có n quan sát trước đó).

Theo như tôi có thể nói, nó cũng chỉ có nghĩa là một lần truyền dữ liệu duy nhất, mặc dù nó có thể được lặp đi lặp lại nhiều lần để gán lại các điểm cho đến khi hội tụ.

MacQueen thường mất ít lần lặp hơn Lloyds để hội tụ nếu dữ liệu của bạn bị xáo trộn (vì nó cập nhật giá trị trung bình nhanh hơn!). Trên dữ liệu được đặt hàng, nó có thể có vấn đề. Mặt khác, nó đòi hỏi nhiều tính toán hơn cho mỗi đối tượng, vì vậy mỗi lần lặp lại mất nhiều thời gian hơn một chút (rõ ràng là các phép toán bổ sung).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.