Tôi đã xem qua các câu hỏi liên quan đến mã hóa tính năng phân loại, nhưng không thể tìm thấy bất kỳ điều gì thảo luận về vấn đề của tôi. Xin lỗi nếu tôi bỏ lỡ nó.
Giả sử chúng ta có một bộ dữ liệu với các biến nhị phân và danh nghĩa có tầm quan trọng gần như bằng nhau.
Hầu hết các phân loại không thể xử lý trực tiếp các loại phân loại, do đó chúng phải được chuyển đổi - ví dụ: sử dụng mã hóa một nóng (biến giả) như được giải thích trong câu trả lời này .
Nếu một biến phân loại có số lượng thẻ cao, bạn sẽ không mã hóa theo cách này "chế ngự" các biến khác (ví dụ nhị phân)? Theo "cardinality", ý tôi là số lượng danh mục trong một biến danh nghĩa.
Nếu mô hình phân loại của chúng tôi nhận thức được mối quan hệ giữa các biến, thì nó có cần thiết không cố gắng tìm mối quan hệ giữa các "thành phần" giả nhị phân được giới thiệu của cùng một biến không?
Và nếu vậy, làm thế nào điều này có thể được giải quyết?
Giải pháp tốt nhất tôi có thể nghĩ đến là phân nhóm một cách hợp lý các thuộc tính cardinality cao thành "xô", tuy nhiên nếu có đủ các giá trị duy nhất là một vấn đề, thì việc nhóm chúng cũng sẽ tốn nhiều công sức.
Chỉnh sửa: Đây là chuyện nhỏ và chỉ giải quyết được một phần vấn đề, nhưng một trong những điều tôi đã làm là thay thế tất cả các giá trị phân loại tương đối hiếm bằng một danh mục "khác" mới. Có thể mất thời gian để tối ưu hóa ngưỡng khi xem xét giá trị "hiếm", nhưng ít nhất phương pháp này có thể được tự động hóa.