Là chuẩn hóa trung bình và mở rộng tính năng cần thiết cho phân cụm k-mean?


Câu trả lời:


63

Nếu các biến của bạn là các đơn vị không thể so sánh được (ví dụ: chiều cao tính bằng cm và trọng lượng tính bằng kg) thì bạn nên chuẩn hóa các biến số, tất nhiên. Ngay cả khi các biến có cùng đơn vị nhưng hiển thị các phương sai khá khác nhau thì vẫn nên chuẩn hóa trước K-mean. Bạn thấy, K-có nghĩa là phân cụm là "đẳng hướng" theo mọi hướng của không gian và do đó có xu hướng tạo ra các cụm tròn nhiều hơn hoặc ít hơn (chứ không phải kéo dài). Trong tình huống này, việc để các phương sai không bằng nhau tương đương với việc đặt nhiều trọng số hơn vào các biến có phương sai nhỏ hơn, do đó các cụm sẽ có xu hướng được phân tách dọc theo các biến có phương sai lớn hơn.

nhập mô tả hình ảnh ở đây

1

Dưới đây là một số lý do chung về vấn đề tiêu chuẩn hóa các tính năng trong cụm hoặc phân tích đa biến khác.


1


2
Việc ngẫu nhiên, chạy lại, trung bình và chạy cuối cùng là một lời khuyên rất tốt. Cảm ơn
pedrosaurio

1
Làm thế nào k-có nghĩa là nhạy cảm để đặt hàng?
SmallChess

1
@StudentT, tôi đã thêm một chú thích cho điều đó. Cảm ơn bạn.
ttnphns

1
@ttnphns làm thế nào để xác định định lượng rằng các biến có "phương sai khá khác nhau"?
Herman Toothrot

1
@camillejr, vui lòng bắt đầu bằng cách kiểm tra Q: stats.stackexchange.com/q/418427/3277 này .
ttnphns

4

Tôi phụ thuộc vào dữ liệu của bạn. Nếu bạn muốn các xu hướng trong dữ liệu của mình tụ lại với nhau bất kể cường độ như thế nào, bạn nên tập trung vào. ví dụ. nói rằng bạn có một số biểu hiện gen và muốn xem xu hướng biểu hiện gen, sau đó không có ý nghĩa trung tâm, các gen biểu hiện thấp của bạn sẽ tập hợp lại và tránh xa các gen biểu hiện cao, bất kể xu hướng. Định tâm làm cho các gen (cả biểu hiện cao và thấp) với các mẫu biểu hiện giống nhau.


Tôi thực sự đang so sánh các tính năng khác nhau có quy mô riêng của họ. Ví dụ, tôi đang so sánh nội dung GC có phạm vi từ khoảng 0,3 đến 0,5 có vẻ nhỏ nhưng sự khác biệt là khá quan trọng; một số tính năng khác có phạm vi rộng hơn, một số tính năng khác có phạm vi rất nhỏ.
pedrosaurio

Vì vậy, bạn đang phân cụm các yếu tố khác nhau? Có thể sử dụng một số trọng lượng hoặc chuyển đổi các giá trị.
Người viết đêm

Không, tôi đang so sánh tất cả các biến liên tục
pedrosaurio
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.