Đừng bỏ bất kỳ biến nào, nhưng hãy cân nhắc sử dụng PCA. Đây là lý do tại sao.
Thứ nhất, như được chỉ ra bởi Anony-mousse, k-mean không bị ảnh hưởng xấu bởi cộng tuyến / tương quan. Bạn không cần phải vứt bỏ thông tin vì điều đó.
Thứ hai, nếu bạn thả các biến của mình sai cách, bạn sẽ mang một số mẫu lại gần nhau một cách giả tạo. Một ví dụ:
Customer CatA CatB CatC
1 1 0 0
2 0 1 0
3 0 0 1
(Tôi đã xóa ký hiệu% và chỉ đặt các giá trị trong khoảng từ 0 đến 1, bị ràng buộc để tất cả chúng có tổng bằng 1.)
Khoảng cách Euclide giữa mỗi người trong số những khách hàng trong không gian 3d tự nhiên của chúng là (1−0)2+(0−1)2+(0−0)2−−−−−−−−−−−−−−−−−−−−−−−√=2–√
Bây giờ hãy nói rằng bạn bỏ CatC.
Customer CatA CatB
1 1 0
2 0 1
3 0 0
Bây giờ khoảng cách giữa khách hàng 1 và 2 vẫn là , nhưng giữa khách hàng 1 và 3, và 2 và 3, nó chỉ √2–√(1−0)2+(0−0)2−−−−−−−−−−−−−−−√=1
Thứ ba, collinerarity / tương quan không phải là vấn đề. Chiều của bạn là. 100 biến là đủ lớn để thậm chí với 10 triệu điểm dữ liệu, tôi lo lắng rằng phương tiện k có thể tìm thấy các mẫu giả trong dữ liệu và phù hợp với điều đó. Thay vào đó, hãy nghĩ đến việc sử dụng PCA để nén nó xuống một số kích thước dễ quản lý hơn - giả sử 10 hoặc 12 để bắt đầu (có thể cao hơn nhiều, có thể thấp hơn nhiều - bạn sẽ phải xem xét phương sai dọc theo từng thành phần và chơi xung quanh một chút, để tìm đúng số). Vâng, bạn sẽ mang một số mẫu gần nhau hơn để làm điều này, vâng, nhưng bạn sẽ làm như vậy theo cách bảo tồn hầu hết các phương sai trong dữ liệu và tốt nhất là sẽ loại bỏ các mối tương quan.
~~~~~
BIÊN TẬP:
Re, ý kiến dưới đây về PCA. Vâng, nó hoàn toàn có bệnh lý. Nhưng nó khá nhanh và dễ để thử, vì vậy dường như tôi vẫn không đặt cược xấu nếu bạn muốn giảm bớt tính chiều hướng của vấn đề.
Mặc dù vậy, tôi đã cố gắng nhanh chóng ném một vài bộ dữ liệu tổng hợp 100 chiều vào thuật toán k-mean để xem những gì họ đã đưa ra. Mặc dù ước tính vị trí trung tâm cụm không chính xác, nhưng tư cách thành viên của cụm (tức là hai mẫu có được gán cho cùng một cụm hay không, dường như đó là điều OP quan tâm) tốt hơn tôi nghĩ. Vì vậy, cảm giác ruột của tôi trước đó hoàn toàn có thể sai - k-nghĩa là di chuyển chỉ hoạt động tốt trên dữ liệu thô.