Tôi có một bộ dữ liệu bao gồm 5 tính năng: A, B, C, D, E. Chúng đều là các giá trị số. Thay vì thực hiện phân cụm dựa trên mật độ, điều tôi muốn làm là phân cụm dữ liệu theo cách giống như cây quyết định.
Cách tiếp cận tôi muốn nói là như thế này:
Thuật toán có thể phân chia dữ liệu thành các cụm ban đầu X dựa trên tính năng C, tức là các cụm X có thể có các giá trị C nhỏ, trung bình C, lớn C và rất lớn, v.v. Tiếp theo, dưới mỗi nút của cụm X, thuật toán tiếp tục phân chia dữ liệu thành các cụm Y dựa trên tính năng A. Thuật toán tiếp tục cho đến khi tất cả các tính năng được sử dụng.
Thuật toán mà tôi mô tả ở trên giống như thuật toán cây quyết định. Nhưng tôi cần nó cho phân cụm không giám sát, thay vì phân loại có giám sát.
Câu hỏi của tôi là như sau:
- Các thuật toán như vậy đã tồn tại? Tên chính xác của thuật toán đó là gì
- Có một gói R / python / thư viện có triển khai loại thuật toán này không?
CHAID
cây chẳng hạn. Bạn phải chọn biến phụ thuộc. Đặt nó là A. Thuật toán chọn trong số B, C, D, E biến tương quan nhất với A và binns biến đó (giả sử, nó, dự đoán, là D) thành hai hoặc nhiều loại "tối ưu" - sao cho tương quan (giữa biến được phân loại D và biến A được tối đa hóa. Giả sử, nó để lại 3 nhóm, D1, D2, D3. Tiếp theo, quy trình tương tự được lặp lại bên trong mỗi loại (nhóm) của D và dự đoán tốt nhất trong số B, C , E được tìm kiếm theo cách đóng thùng nó, v.v. Chính xác thì điều gì không phù hợp với bạn ở đây?
But I need it for unsupervised clustering, instead of supervised classification
Chỉ riêng cụm từ này là quá ngắn gọn và không thể hiện rõ ràng những gì bạn muốn. Trên nó bạn mô tả những gì dường như với tôi là một cây quyết định. Bây giờ bạn có thể đưa ra một đoạn tương tự về thuật toán bạn muốn không?