Sự hiểu biết của tôi là trong học máy có thể là một vấn đề nếu tập dữ liệu của bạn có các tính năng tương quan cao, vì chúng mã hóa hiệu quả cùng một thông tin.
Gần đây, một người nào đó đã chỉ ra rằng khi bạn thực hiện mã hóa một lần trên một biến phân loại, bạn sẽ kết thúc với các tính năng tương quan, vì vậy bạn nên bỏ một trong số chúng làm "tham chiếu".
Ví dụ: mã hóa giới tính thành hai biến is_male
và is_female
tạo ra hai tính năng có mối tương quan hoàn toàn tiêu cực, vì vậy họ đề nghị chỉ sử dụng một trong số đó, đặt đường cơ sở để nói là nam và sau đó xem cột is_fbang có quan trọng trong thuật toán dự đoán không .
Điều đó có ý nghĩa với tôi nhưng tôi không tìm thấy bất cứ điều gì trực tuyến để đề xuất đây có thể là trường hợp, vậy điều này có sai hay tôi đang thiếu một cái gì đó?
Có thể trùng lặp (chưa được trả lời): Tính cộng tác của các tính năng được mã hóa một lần nóng có quan trọng đối với SVM và LogReg không?
Does keeping all k values theoretically make them weaker features
. Không (mặc dù tôi không chắc chắn 100% ý của bạn là "yếu hơn"). using something like PCA
Lưu ý, chỉ trong trường hợp, PCA trên một tập hợp các hình nộm đại diện cho một biến phân loại giống nhau có rất ít điểm thực tế bởi vì các mối tương quan bên trong tập hợp các hình nộm chỉ phản ánh mối quan hệ giữa các tần số loại (vì vậy nếu tất cả các tần số đều bằng nhau thì tất cả các tương quan đều bằng nhau đến 1 / (k-1)).
is_male
biến trái ngược với cả hai tùy chọn? Có lẽ điều đó không có ý nghĩa trong bối cảnh này và nó chỉ có thể là vấn đề khi bạn có hai biến khác nhau thực sự mã hóa cùng một thông tin (ví dụ: chiều cao tính bằng inch và chiều cao tính bằng cm).
you end up with correlated features, so you should drop one of them as a "reference"
Biến giả hoặc biến chỉ báo (đây là hai tên được sử dụng trong thống kê, đồng nghĩa với "mã hóa một nóng" trong học máy) dù sao cũng tương quan với nhau, dù là tất cả các biến k hoặc k-1. Vì vậy, từ tốt hơn là "dự phòng thống kê / thông tin" thay vì "tương quan".