Phân cụm theo phân cấp với các biến phân loại


11

Các biến phân loại có thể được sử dụng trong phân cụm phân cấp? Tôi chỉ nghe thấy các biến liên tục được sử dụng, nhưng đã thấy mọi người thảo luận về các biến phân loại có thể / có thể không được sử dụng. Bất cứ ai có thể cung cấp cái nhìn sâu sắc?


2
Tất nhiên, dữ liệu phân loại thường là một chủ đề của phân tích cụm, đặc biệt là phân cấp. Rất nhiều biện pháp lân cận tồn tại cho các biến nhị phân (bao gồm các bộ giả là rác của các biến phân loại); cũng biện pháp entropy. Các cụm trường hợp sẽ là sự kết hợp thường xuyên của các thuộc tính và các biện pháp khác nhau đưa ra gia vị cụ thể của chúng để tính toán tần số. Một vấn đề với phân cụm dữ liệu phân loại là sự ổn định của các giải pháp. Và câu hỏi gần đây này đưa ra vấn đề tương quan biến.
ttnphns

Tìm kiếm trang web này hierarchical clustering categoricalđể đọc các chủ đề liên quan.
ttnphns


Tôi không nghĩ rằng đây là một bản sao, chính xác. Câu hỏi được liên kết là về R, và thậm chí có thể lạc đề ngay bây giờ. Câu hỏi này là về thống kê và không đề cập đến gói phần mềm.
Peter Flom

@ttnphns: bạn có muốn đăng (các) bình luận của bạn dưới dạng câu trả lời không? Tốt hơn là có một câu trả lời ngắn hơn là không có câu trả lời nào cả. Bất cứ ai có câu trả lời tốt hơn có thể đăng nó.
Stephan Kolassa

Câu trả lời:


3

Tất nhiên, dữ liệu phân loại thường là một chủ đề của phân tích cụm, đặc biệt là phân cấp. Rất nhiều biện pháp lân cận tồn tại cho các biến nhị phân (bao gồm các bộ giả là rác của các biến phân loại); cũng biện pháp entropy. Các cụm trường hợp sẽ là sự kết hợp thường xuyên của các thuộc tính và các biện pháp khác nhau đưa ra gia vị cụ thể của chúng để tính toán tần số. Một vấn đề với phân cụm dữ liệu phân loại là sự ổn định của các giải pháp. Và câu hỏi gần đây này đưa ra vấn đề tương quan biến.


Tôi đã sao chép nhận xét này bởi @ttnphns dưới dạng câu trả lời wiki cộng đồng vì nhận xét ít nhiều là câu trả lời cho câu hỏi này. Chúng tôi có một khoảng cách lớn giữa câu trả lời và câu hỏi. Ít nhất một phần của vấn đề là một số câu hỏi được trả lời trong các bình luận: nếu các bình luận trả lời câu hỏi là câu trả lời thay vào đó, chúng ta sẽ có ít câu hỏi chưa được trả lời hơn.
mkt - Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.