Có cách nào để xác định tính năng / biến nào của bộ dữ liệu là quan trọng nhất / chiếm ưu thế trong giải pháp cụm k-mean không?
Có cách nào để xác định tính năng / biến nào của bộ dữ liệu là quan trọng nhất / chiếm ưu thế trong giải pháp cụm k-mean không?
Câu trả lời:
Một cách để định lượng tính hữu dụng của từng tính năng (= biến = thứ nguyên), từ cuốn sách Burns, Robert P. và Richard Burns. Phương pháp nghiên cứu kinh doanh và thống kê sử dụng SPSS. Sage, 2008 ( gương ), tính hữu dụng được xác định bởi sức mạnh phân biệt của các tính năng để phân biệt các cụm.
Chúng tôi thường kiểm tra phương tiện cho từng cụm trên mỗi kích thước bằng ANOVA để đánh giá mức độ khác biệt của cụm. Lý tưởng nhất, chúng ta sẽ thu được các phương tiện khác nhau đáng kể cho hầu hết, nếu không phải tất cả các kích thước, được sử dụng trong phân tích. Độ lớn của các giá trị F được thực hiện trên mỗi thứ nguyên là một dấu hiệu cho thấy kích thước tương ứng phân biệt giữa các cụm.
Một cách khác là loại bỏ một tính năng cụ thể và xem tác động của các chỉ số chất lượng nội bộ này như thế nào . Không giống như giải pháp đầu tiên, bạn sẽ phải làm lại việc phân cụm cho từng tính năng (hoặc bộ tính năng) mà bạn muốn phân tích.
Tài chính
Tôi có thể nghĩ về hai khả năng khác tập trung nhiều hơn vào biến nào là quan trọng đối với cụm nào.
Phân loại nhiều lớp. Xem xét các đối tượng thuộc cụm x thành viên của cùng một lớp (ví dụ: lớp 1) và các đối tượng thuộc về các thành viên cụm khác của lớp thứ hai (ví dụ: lớp 2). Huấn luyện một trình phân loại để dự đoán thành viên của lớp (ví dụ: lớp 1 so với lớp 2). Các hệ số biến của bộ phân loại có thể phục vụ để ước tính tầm quan trọng của từng biến trong các đối tượng phân cụm cho cụm x . Lặp lại phương pháp này cho tất cả các cụm khác.
Tương tự biến nội cụm. Đối với mỗi biến, hãy tính độ tương tự trung bình của từng đối tượng với trọng tâm của nó. Một biến có độ tương tự cao giữa một centroid và các đối tượng của nó có thể quan trọng hơn đối với quá trình phân cụm so với một biến có độ tương tự thấp . Tất nhiên, cường độ tương tự là tương đối, nhưng bây giờ các biến có thể được xếp hạng theo mức độ mà chúng giúp phân cụm các đối tượng trong mỗi cụm.