Dữ liệu phân cụm có hỗn hợp các biến liên tục và phân loại


8

Tôi có dữ liệu đại diện cho một số khía cạnh của hành vi của con người. Tôi muốn gom nó (không được giám sát) vào hồ sơ hành vi của một số loại. bây giờ, một số biến của tôi là phân loại (có 2 loại trở lên) và một số biến liên tục (hầu hết là tỷ lệ phần trăm). Một vài biến thậm chí còn phức tạp hơn trong đó một loại có liên tục hơn và loại kia không có dữ liệu bổ sung như vậy.

Câu hỏi của tôi là về cách đi về phân loại dữ liệu này. Các phương pháp (phổ biến?) Đối phó với nó là gì?

Tôi không cần mã hoặc bất cứ điều gì, nhưng thay vào đó một số tài liệu tham khảo hoặc chỉ dẫn sẽ giúp tôi hiểu thêm về cách đối phó với thách thức này.

Nếu bạn biết các Rchức năng tạo điều kiện cho phân tích như vậy, điều đó sẽ rất tuyệt, nhưng nó không cần thiết.

cảm ơn.


2
Biện pháp tương tự Gower có thể lấy dữ liệu đồng thời liên tục, thứ tự, nhị phân, danh nghĩa. Bạn có thể sử dụng các phương pháp phân cụm như phân cấp hoặc trung gian, để phân tích ma trận lân cận. Vài phương thức phân cụm khác (ví dụ cụm TwoStep) có thể nhận các biến liên tục và danh nghĩa cùng một lúc.
ttnphns

Đối với tỷ lệ phần trăm hoặc số lượng, đôi khi các biện pháp chi bình phương đặc biệt được tính toán cho chúng, và đôi khi khoảng cách euclide thông thường, như đối với dữ liệu continiuos, được sử dụng.
ttnphns

4
Nói chung, phân cụm dữ liệu kiểu hỗn hợp là một điều khó khăn và có lẽ chỉ dành cho một nhà phân tích dữ liệu có kinh nghiệm. Mặt khác, việc phân cụm các dữ liệu như vậy thường không phải là một ý tưởng tốt, bởi vì có các vấn đề về tiêu chuẩn hóa, giải thích và phân tích đóng góp tính năng.
ttnphns

Câu trả lời:


1
  1. Dành nhiều thời gian để hiểu sự tương tự trên dữ liệu của bạn.
  2. Chính thức hóa khái niệm về sự giống nhau của bạn trong một biện pháp tương tự chuyên biệt, được thiết kế cho tập dữ liệu cụ thể của bạn (bạn có thể sẽ không thể sử dụng sự tương tự ngoài luồng).
  3. Sử dụng thuật toán phân cụm có thể sử dụng các tương tự tùy ý, chẳng hạn như phân cụm theo phân cấp, DBSCAN, lan truyền ái lực hoặc phân cụm phổ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.