Hầu hết các thuật toán phân cụm và giảm kích thước cổ điển (phân cụm theo phân cấp, phân tích thành phần chính, phương tiện k, bản đồ tự tổ chức ...) được thiết kế dành riêng cho dữ liệu số và dữ liệu đầu vào của chúng được xem là các điểm trong không gian euclide.
Tất nhiên đây là một vấn đề, vì nhiều câu hỏi trong thế giới thực liên quan đến dữ liệu được trộn lẫn: ví dụ nếu chúng ta nghiên cứu xe buýt, chiều cao và chiều dài và kích thước động cơ sẽ là số, nhưng chúng ta cũng có thể quan tâm đến màu sắc (biến phân loại: màu xanh lam / red / green ...) và các lớp công suất (biến theo thứ tự: công suất nhỏ / trung bình / lớn). Cụ thể, chúng ta có thể muốn nghiên cứu các loại biến khác nhau cùng một lúc.
Có một số phương pháp để mở rộng thuật toán phân cụm cổ điển sang dữ liệu hỗn hợp, ví dụ sử dụng sự khác biệt của Gower để cắm vào phân cụm phân cấp hoặc chia tỷ lệ đa chiều hoặc các phương thức khác lấy ma trận khoảng cách làm đầu vào. Hoặc ví dụ phương pháp này , một phần mở rộng của SOM cho dữ liệu hỗn hợp.
Câu hỏi của tôi là: tại sao chúng ta không thể sử dụng khoảng cách euclide trên các biến hỗn hợp? hoặc tại sao nó là xấu để làm như vậy? Tại sao chúng ta không thể mã hóa các biến phân loại, bình thường hóa tất cả các biến để chúng có trọng số tương tự trong khoảng cách giữa các quan sát và chạy các thuật toán thông thường trên các ma trận này?
Điều đó thực sự dễ dàng và không bao giờ được thực hiện, vì vậy tôi cho rằng nó rất sai, nhưng ai đó có thể cho tôi biết tại sao không? Và / hoặc cho tôi một số ref? Cảm ơn