Tiêu chí khuỷu tay để xác định số lượng cụm

Nó được đề cập ở đây là một trong những phương pháp để xác định số lượng tối ưu của các cụm trong một dữ liệu thiết lập là "phương pháp khuỷu tay". Ở đây tỷ lệ phần trăm của phương sai được tính bằng tỷ lệ của phương sai giữa các nhóm với tổng phương sai.

Tôi cảm thấy khó khăn trong việc hiểu tính toán này. Có ai có thể giải thích cách tính phần trăm phương sai cho tập dữ liệu được biểu diễn dưới dạng ma trận tính năng , trong đó là thứ nguyên tính năng và là số điểm dữ liệu . Tôi sử dụng thuật toán k-mean để phân cụm. $F \in \mathbf{R}^{m \times n}$ $m$ $n$

clustering k-means

— Người học
nguồn

Ý tưởng làm nền tảng cho thuật toán k-mean là cố gắng tìm các cụm làm giảm thiểu phương sai trong cụm (hoặc lên đến một hằng số tổng bình phương hoặc SS tương ứng), tương đương với tối đa SS giữa cụm vì tổng phương sai là đã sửa. Như đã đề cập trên wiki, bạn có thể trực tiếp sử dụng SS bên trong và xem xét biến thể của nó khi tăng số lượng cụm (giống như chúng ta sẽ làm trong Phân tích nhân tố với screeplot): một sự thay đổi đột ngột trong cách SS phát triển là gợi ý của một giải pháp tối ưu , mặc dù điều này chỉ đơn thuần đứng từ đánh giá cao hình ảnh. Khi tổng phương sai được cố định, nó tương đương với việc nghiên cứu tỷ lệ giữa và tổng SS, còn được gọi là tỷ lệ phần trăm phương sai được giải thích, bởi vì trong trường hợp này, nó sẽ xuất hiện một khoảng cách lớn từ một k đến k tiếp theo +1.

Tóm lại, bạn chỉ cần tính khoảng cách bình phương giữa mỗi điểm dữ liệu và trung tâm tương ứng của chúng (hoặc centroid), cho mỗi cụm - điều này mang lại cho bạn trong SS và tổng trong SS chỉ là tổng của cụ thể của cụm WSS (biến chúng thành phương sai chỉ là vấn đề chia cho các mức độ tự do tương ứng); giữa SS có được bằng cách trừ tổng WSS từ tổng SS, cái sau được lấy bằng cách xem xét k = 1 chẳng hạn.

Nhân tiện, với k = 1, WSS = TSS và BSS = 0.

Nếu bạn sau khi xác định số lượng cụm hoặc nơi dừng với phương tiện k, bạn có thể coi thống kê Gap là một thay thế cho tiêu chí khuỷu tay:

Tibshirani, R., Walther, G. và Hastie, T. (2001). Ước tính số lượng cụm trong một tập dữ liệu thông qua thống kê khoảng cách . Thống kê JR. Sóc. B , 63 (2): 411-423.

— chl
nguồn

+1 Cảm ơn bạn đã giải thích chi tiết. Tôi chỉ tự hỏi liệu phương pháp luận để xác định số lượng cụm tối ưu thay đổi nếu tôi sử dụng một số liệu khoảng cách khác nhau, giả sử, tương tự cosine. Bạn có suy nghĩ gì về điều này?

— Truyền thuyết