Các bước xử lý trước tốt nhất (được khuyến nghị) trước khi thực hiện phương tiện k là gì?
Các bước xử lý trước tốt nhất (được khuyến nghị) trước khi thực hiện phương tiện k là gì?
Câu trả lời:
Nếu các biến của bạn là các đơn vị không thể so sánh được (ví dụ: chiều cao tính bằng cm và trọng lượng tính bằng kg) thì bạn nên chuẩn hóa các biến số, tất nhiên. Ngay cả khi các biến có cùng đơn vị nhưng hiển thị các phương sai khá khác nhau thì vẫn nên chuẩn hóa trước K-mean. Bạn thấy, K-có nghĩa là phân cụm là "đẳng hướng" theo mọi hướng của không gian và do đó có xu hướng tạo ra các cụm tròn nhiều hơn hoặc ít hơn (chứ không phải kéo dài). Trong tình huống này, việc để các phương sai không bằng nhau tương đương với việc đặt nhiều trọng số hơn vào các biến có phương sai nhỏ hơn, do đó các cụm sẽ có xu hướng được phân tách dọc theo các biến có phương sai lớn hơn.
Dưới đây là một số lý do chung về vấn đề tiêu chuẩn hóa các tính năng trong cụm hoặc phân tích đa biến khác.
Tôi phụ thuộc vào dữ liệu của bạn. Nếu bạn muốn các xu hướng trong dữ liệu của mình tụ lại với nhau bất kể cường độ như thế nào, bạn nên tập trung vào. ví dụ. nói rằng bạn có một số biểu hiện gen và muốn xem xu hướng biểu hiện gen, sau đó không có ý nghĩa trung tâm, các gen biểu hiện thấp của bạn sẽ tập hợp lại và tránh xa các gen biểu hiện cao, bất kể xu hướng. Định tâm làm cho các gen (cả biểu hiện cao và thấp) với các mẫu biểu hiện giống nhau.