Tôi đã cố gắng để hiểu các thuật toán phân cụm k-mean khác nhau, chủ yếu được triển khai trong stats
gói R
ngôn ngữ.
Tôi hiểu thuật toán của Lloyd và thuật toán trực tuyến của MacQueen. Cách tôi hiểu chúng là như sau:
Thuật toán của Lloyd:
Ban đầu, các quan sát ngẫu nhiên 'k' được chọn sẽ đóng vai trò là tâm của các cụm 'k'. Sau đó, các bước sau đây xảy ra trong vòng lặp cho đến khi các nhân giáp hội tụ.
- Khoảng cách Euclide giữa mỗi lần quan sát và trọng tâm được chọn được tính toán.
- Các quan sát gần nhất với từng tâm được gắn thẻ trong các thùng 'k'.
- Giá trị trung bình của tất cả các quan sát trong mỗi thùng đóng vai trò là trọng tâm mới.
- Các nhân mã mới thay thế các nhân mã cũ và việc lặp lại quay lại bước 1 nếu các nhân mã cũ và mới không hội tụ.
Các điều kiện để hội tụ là như sau: centroid cũ và mới hoàn toàn giống hệt nhau, sự khác biệt giữa các centroid là nhỏ (theo thứ tự 10 ^ -3) hoặc số lần lặp tối đa (10 hoặc 100) đạt được.
Thuật toán của MacQueen:
Đây là phiên bản trực tuyến trong đó các phiên bản 'k' đầu tiên được chọn là centroid.
Sau đó, mỗi trường hợp được đặt trong các thùng tùy thuộc vào centroid nào gần nhất với thể hiện đó. Trọng tâm tương ứng được tính toán lại.
Lặp lại bước này cho đến khi mỗi trường hợp được đặt vào thùng thích hợp.
Thuật toán này chỉ có một lần lặp và vòng lặp tiếp tục cho các trường hợp 'x'
Thuật toán Hartigan-Wong:
- Chỉ định tất cả các điểm / trường hợp cho các nhóm ngẫu nhiên và tính toán trọng tâm tương ứng.
- Bắt đầu từ ví dụ đầu tiên, tìm trọng tâm gần nhất và khẳng định cái xô đó. Nếu xô thay đổi thì hãy tính lại trọng tâm mới, tức là trọng tâm của xô mới được gán và tâm của phân bổ xô cũ vì đó là hai trọng tâm bị ảnh hưởng bởi thay đổi
- Vòng qua tất cả các điểm và nhận được centroid mới.
- Thực hiện lần lặp thứ hai của điểm 2 và 3 để thực hiện thao tác dọn dẹp và gán lại các điểm đi lạc để sửa các thùng.
Vì vậy, thuật toán này thực hiện 2 lần lặp trước khi chúng ta thấy kết quả hội tụ.
Bây giờ, tôi không chắc liệu những gì tôi nghĩ ở điểm 4 trong thuật toán Hartigan-Wong có phải là phương pháp chính xác của thuật toán hay không. Câu hỏi của tôi là, nếu phương pháp sau đây cho Hartigan-Wong là phương pháp chính xác để thực hiện phương tiện k? Chỉ có hai lần lặp cho phương pháp này? nếu không, điều kiện để hội tụ (khi nào dừng lại) là gì?
Một giải thích thực hiện có thể có những gì tôi hiểu là.
- Chỉ định tất cả các điểm / trường hợp cho các nhóm ngẫu nhiên và tính toán trọng tâm tương ứng.
- Bắt đầu từ ví dụ đầu tiên, tìm trọng tâm gần nhất và gán thùng đó. Nếu xô thay đổi thì hãy tính lại trọng tâm mới, tức là trọng tâm của xô mới được gán và tâm của phân bổ xô cũ vì đó là hai trọng tâm bị ảnh hưởng bởi thay đổi.
- Khi có một sự thay đổi trong nhóm cho bất kỳ điểm nào, hãy quay lại trường hợp đầu tiên và lặp lại các bước một lần nữa.
- Lặp lại kết thúc khi tất cả các trường hợp được lặp lại và không có điểm nào thay đổi xô.
Bằng cách này, có rất nhiều lần lặp lại bắt đầu từ đầu tập dữ liệu nhiều lần khi một cá thể thay đổi xô.
Mọi lời giải thích đều hữu ích và xin vui lòng cho tôi biết nếu tôi hiểu về bất kỳ phương pháp nào trong số này là sai.