Bỏ một trong các cột khi sử dụng mã hóa một nóng


21

Sự hiểu biết của tôi là trong học máy có thể là một vấn đề nếu tập dữ liệu của bạn có các tính năng tương quan cao, vì chúng mã hóa hiệu quả cùng một thông tin.

Gần đây, một người nào đó đã chỉ ra rằng khi bạn thực hiện mã hóa một lần trên một biến phân loại, bạn sẽ kết thúc với các tính năng tương quan, vì vậy bạn nên bỏ một trong số chúng làm "tham chiếu".

Ví dụ: mã hóa giới tính thành hai biến is_maleis_femaletạo ra hai tính năng có mối tương quan hoàn toàn tiêu cực, vì vậy họ đề nghị chỉ sử dụng một trong số đó, đặt đường cơ sở để nói là nam và sau đó xem cột is_fbang có quan trọng trong thuật toán dự đoán không .

Điều đó có ý nghĩa với tôi nhưng tôi không tìm thấy bất cứ điều gì trực tuyến để đề xuất đây có thể là trường hợp, vậy điều này có sai hay tôi đang thiếu một cái gì đó?

Có thể trùng lặp (chưa được trả lời): Tính cộng tác của các tính năng được mã hóa một lần nóng có quan trọng đối với SVM và LogReg không?


8
you end up with correlated features, so you should drop one of them as a "reference"Biến giả hoặc biến chỉ báo (đây là hai tên được sử dụng trong thống kê, đồng nghĩa với "mã hóa một nóng" trong học máy) dù sao cũng tương quan với nhau, dù là tất cả các biến k hoặc k-1. Vì vậy, từ tốt hơn là "dự phòng thống kê / thông tin" thay vì "tương quan".
ttnphns

Tập hợp của tất cả các hình nộm k là tập hợp đa hướng bởi vì nếu bạn biết các giá trị của các hình nộm k-1 trong dữ liệu, bạn sẽ tự động biết các giá trị của hình nộm cuối cùng đó. Một số phương pháp phân tích dữ liệu hoặc thuật toán yêu cầu bạn bỏ một trong các k. Khác có thể đối phó với tất cả k.
ttnphns

@ttnphns: cảm ơn, điều đó có ý nghĩa. Việc giữ tất cả các giá trị k về mặt lý thuyết làm cho chúng trở thành các tính năng yếu hơn có thể / nên được loại bỏ với việc giảm kích thước? Một trong những đối số cho việc sử dụng một cái gì đó như PCA thường là để loại bỏ các tính năng tương quan / dư thừa, tôi tự hỏi liệu có giữ tất cả các biến k nằm trong danh mục đó không.
dasboth

Does keeping all k values theoretically make them weaker features. Không (mặc dù tôi không chắc chắn 100% ý của bạn là "yếu hơn"). using something like PCALưu ý, chỉ trong trường hợp, PCA trên một tập hợp các hình nộm đại diện cho một biến phân loại giống nhau có rất ít điểm thực tế bởi vì các mối tương quan bên trong tập hợp các hình nộm chỉ phản ánh mối quan hệ giữa các tần số loại (vì vậy nếu tất cả các tần số đều bằng nhau thì tất cả các tương quan đều bằng nhau đến 1 / (k-1)).
ttnphns

Ý tôi là khi bạn sử dụng mô hình của mình để đánh giá tầm quan trọng của tính năng (ví dụ với một khu rừng ngẫu nhiên) nó sẽ đánh giá thấp tầm quan trọng của biến đó nếu bạn bao gồm tất cả các giá trị k? Như trong, bạn có nhận được ước tính "xác thực" về tầm quan trọng của giới tính không nếu bạn chỉ sử dụng một is_malebiến trái ngược với cả hai tùy chọn? Có lẽ điều đó không có ý nghĩa trong bối cảnh này và nó chỉ có thể là vấn đề khi bạn có hai biến khác nhau thực sự mã hóa cùng một thông tin (ví dụ: chiều cao tính bằng inch và chiều cao tính bằng cm).
dasboth

Câu trả lời:


22

lmglm

Với các mô hình khác, sử dụng các nguyên tắc tương tự. Nếu dự đoán thu được phụ thuộc vào cột bạn bỏ đi, thì đừng làm điều đó. Nếu không thì tốt.

Cho đến nay, câu trả lời này chỉ đề cập đến các mô hình tuyến tính (và một số phi tuyến tính nhẹ). Nhưng những gì về các mô hình phi tuyến tính, như cây và rừng ngẫu nhiên? Các ý tưởng về mã hóa phân loại, như một nóng, bắt nguồn chủ yếu từ các mô hình tuyến tính và các phần mở rộng. Có rất ít lý do để nghĩ rằng những ý tưởng xuất phát từ bối cảnh đó nên được áp dụng mà không cần sửa đổi cho cây và rừng! đối với một số ý tưởng, xem Ngẫu nhiên rừng ngẫu nhiên với dữ liệu thưa thớt trong Python .

β,β2,β3β1= =0β2-β1,β3-β1


Tôi có thể đồng ý rằng việc lựa chọn biến tham chiếu sẽ ảnh hưởng đến kết quả của hồi quy chính quy, nhưng tôi không chắc chắn nếu để tất cả các biến như là tốt hơn là bỏ đi một biến. Bạn có một số lý do cho điều đó?
Kota Mori

Chà, chỉ có hai lựa chọn thay thế ... Giữ tất cả các cấp giữ bất biến và không có sự độc đoán. Nếu bạn có các reaons khác muốn giảm số lượng cấp độ, chẳng hạn như quá nhiều trong số chúng, bạn nên cho chúng tôi biết về điều đó
kjetil b halvorsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.