Ước tính các tính năng quan trọng nhất trong phân vùng cụm k-mean


19

Có cách nào để xác định tính năng / biến nào của bộ dữ liệu là quan trọng nhất / chiếm ưu thế trong giải pháp cụm k-mean không?


1
Làm thế nào để bạn xác định "quan trọng / chi phối"? Bạn có nghĩa là hữu ích nhất để phân biệt giữa các cụm?
Franck Dernoncourt

3
Vâng, hữu ích nhất là những gì tôi muốn nói. Tôi nghĩ một phần của vấn đề của tôi khi tìm ra điều này là làm thế nào để nói nó.
dùng1624577

Cảm ơn bạn đã làm rõ. Một thuật ngữ thông thường để chỉ định vấn đề này trong học máy là lựa chọn tính năng .
Franck Dernoncourt

Câu trả lời:


8

Một cách để định lượng tính hữu dụng của từng tính năng (= biến = thứ nguyên), từ cuốn sách Burns, Robert P. và Richard Burns. Phương pháp nghiên cứu kinh doanh và thống kê sử dụng SPSS. Sage, 2008 ( gương ), tính hữu dụng được xác định bởi sức mạnh phân biệt của các tính năng để phân biệt các cụm.

Chúng tôi thường kiểm tra phương tiện cho từng cụm trên mỗi kích thước bằng ANOVA để đánh giá mức độ khác biệt của cụm. Lý tưởng nhất, chúng ta sẽ thu được các phương tiện khác nhau đáng kể cho hầu hết, nếu không phải tất cả các kích thước, được sử dụng trong phân tích. Độ lớn của các giá trị F được thực hiện trên mỗi thứ nguyên là một dấu hiệu cho thấy kích thước tương ứng phân biệt giữa các cụm.

Một cách khác là loại bỏ một tính năng cụ thể và xem tác động của các chỉ số chất lượng nội bộ này như thế nào . Không giống như giải pháp đầu tiên, bạn sẽ phải làm lại việc phân cụm cho từng tính năng (hoặc bộ tính năng) mà bạn muốn phân tích.

Tài chính


4
Điều rất quan trọng là thêm rằng trong bối cảnh này, người ta không nên lấy các giá trị F (hoặc p) đó làm chỉ số có ý nghĩa thống kê (tức là tương đối dân số), mà chỉ đơn giản là chỉ số về mức độ khác biệt.
ttnphns

3

Tôi có thể nghĩ về hai khả năng khác tập trung nhiều hơn vào biến nào là quan trọng đối với cụm nào.

  1. Phân loại nhiều lớp. Xem xét các đối tượng thuộc cụm x thành viên của cùng một lớp (ví dụ: lớp 1) và các đối tượng thuộc về các thành viên cụm khác của lớp thứ hai (ví dụ: lớp 2). Huấn luyện một trình phân loại để dự đoán thành viên của lớp (ví dụ: lớp 1 so với lớp 2). Các hệ số biến của bộ phân loại có thể phục vụ để ước tính tầm quan trọng của từng biến trong các đối tượng phân cụm cho cụm x . Lặp lại phương pháp này cho tất cả các cụm khác.

  2. Tương tự biến nội cụm. Đối với mỗi biến, hãy tính độ tương tự trung bình của từng đối tượng với trọng tâm của nó. Một biến có độ tương tự cao giữa một centroid và các đối tượng của nó có thể quan trọng hơn đối với quá trình phân cụm so với một biến có độ tương tự thấp . Tất nhiên, cường độ tương tự là tương đối, nhưng bây giờ các biến có thể được xếp hạng theo mức độ mà chúng giúp phân cụm các đối tượng trong mỗi cụm.


0

Đây là một phương pháp rất đơn giản. Lưu ý rằng khoảng cách Euclide giữa hai trung tâm cụm là tổng của sự khác biệt bình phương giữa các tính năng riêng lẻ. Sau đó chúng ta có thể chỉ sử dụng chênh lệch vuông làm trọng lượng cho mỗi tính năng.

Khoảng cách Euclide

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.