Tôi đã đọc rất nhiều bài báo kiểm tra k-mean với nhiều bộ dữ liệu thường không được phân phối như bộ dữ liệu mống mắt và nhận được kết quả tốt. Vì, tôi hiểu rằng k-mean dành cho dữ liệu phân phối thông thường, tại sao k-mean được sử dụng cho dữ liệu không được phân phối thông thường?
Ví dụ, bài báo dưới đây đã sửa đổi các trọng tâm từ phương tiện k dựa trên đường cong phân phối bình thường và đã kiểm tra thuật toán với bộ dữ liệu iris thường không được phân phối.
gần như tất cả các giá trị (chính xác là 99,73%) sẽ có khoảng cách điểm đến trung tâm trong phạm vi 3 độ lệch chuẩn () so với trung bình dân số.
Có điều gì đó mà tôi không hiểu ở đây?
- Olukanmi & Twala (2017). K-mean-sharp: Cập nhật centroid đã sửa đổi để phân cụm k-mean mạnh mẽ hơn
- Bộ dữ liệu Iris
iris
tập dữ liệu thực sự nằm trong 3 sd của centroid chưa? Có khả năng nó vẫn đúng, nó chỉ không tự động làm theo nếu phân phối không bình thường. Có lẽ các tác giả chỉ cần thêm một lớp lót làm rõ điều đó.