Giả định kích thước bằng nhau của cụm trong cụm

9

Tôi tự hỏi: khi phân cụm dữ liệu bằng một số thuật toán chung, có một giả định về kích thước xấp xỉ bằng nhau của các cụm? Ví dụ, trong k-nghĩa là tôi biết tất cả các cụm nên có khoảng. số lượng mẫu bằng nhau. Nó cũng giữ cho các thuật toán phân cụm khác?

clustering k-means

— gãy xương
nguồn

3

Có thật không? sẽ là lạ khi biết rằng tất cả các cụm nên có xấp xỉ các điểm mẫu giống nhau. k-mean chỉ cần một thước đo khoảng cách và số lượng phương tiện. Bình đẳng về kích thước cụm là hoàn toàn xa lạ với tôi.

— Chamberlain Foncha

1

k-nghĩa là, bản thân nó không thực hiện bất kỳ kiểm tra nào về kích thước cụm. Nó chỉ quan tâm đến giá trị trung bình của ước tính hiện tại. Nhưng tôi đoán bạn có thể sửa đổi thuật toán và sau khi hội tụ thành phương tiện k, sau đó chia dữ liệu thành các phân vùng k và gán từng mẫu cho giá trị trung bình gần nhất, sau đó bạn sẽ nhận được các cụm có kích thước bằng nhau, nhưng tôi nghi ngờ nó sẽ "tốt hơn" phân cụm .. Xem ví dụ của Felipe về cách các cụm có kích thước bằng nhau sẽ thất bại ..

— jeff

12

k-nghĩa là không quan tâm đến hồng y cụm

Bạn đang hiểu nhầm tuyên bố chung rằng các cụm k-nghĩa là "có xu hướng có cùng kích thước" (trong đó kích thước đề cập đến khu vực, không phải là cardinality ). Điều này đúng ở một mức độ nào đó, bởi vì k-mean luôn phân chia dữ liệu trên trực giao giữa của hai cụm. Điều này mang lại sự phân chia xấp xỉ không gian dữ liệu (ít nhất là nếu chúng ta bỏ qua không gian trống vô hạn bên ngoài dữ liệu của bạn - điều này không nghiêm ngặt về mặt toán học).

Tuy nhiên, nếu bạn có mật độ khác nhau trong tập dữ liệu của mình (và tại sao bạn sẽ sử dụng phân cụm nếu bạn không có) thì hai cụm của cùng một khu vực không phải có cùng số lượng phần tử .

Thuật toán duy nhất mà tôi biết cố gắng đảm bảo cùng một số lượng chính là hướng dẫn thuật toán cùng kích thước-kmeans này .

— Có QUIT - Anony-Mousse
nguồn

1

Nó không giữ, thậm chí trong k có nghĩa là. Lấy ví dụ các dữ liệu sau:

...
...

           xxxxxxxxxxxxxx
            x x x x xxxxx
            xxxxxxxxxx
           xxxxxxxxxxx

Nếu bạn chạy k có nghĩa là với 2 lớp, rõ ràng hai cụm kết quả sẽ có số lượng phần tử khác nhau.

— Felipe Gerard
nguồn