Tôi có một tập dữ liệu X có 10 thứ nguyên, 4 trong số đó là các giá trị rời rạc. Trong thực tế, 4 biến rời rạc đó là thứ tự, nghĩa là giá trị cao hơn hàm ý ngữ nghĩa cao hơn / tốt hơn.
2 trong số các biến rời rạc này được phân loại theo nghĩa là đối với mỗi biến này, khoảng cách, ví dụ từ 11 đến 12 không giống với khoảng cách từ 5 đến 6. Trong khi giá trị biến cao hơn hàm ý cao hơn trong thực tế, thang đo là không nhất thiết là tuyến tính (trên thực tế, nó không thực sự được xác định).
Câu hỏi của tôi là:
- Có phải là một ý tưởng tốt để áp dụng thuật toán phân cụm phổ biến (ví dụ: K-Means và sau đó là Gaussian Mixture (GMM)) cho bộ dữ liệu này chứa cả hai biến rời rạc và liên tục?
Nếu không:
- Tôi có nên loại bỏ các biến rời rạc và chỉ tập trung vào các biến liên tục?
- Tôi có nên phân biệt rõ hơn những cái liên tục và sử dụng thuật toán phân cụm cho dữ liệu rời rạc không?