Tôi nhận thức được thực tế rằng các biến phân loại có cấp độ k nên được mã hóa bằng các biến k-1 trong mã hóa giả (tương tự đối với các biến phân loại đa giá trị). Tôi đã tự hỏi có bao nhiêu vấn đề khi mã hóa một nóng (tức là sử dụng biến k thay thế) so với mã hóa giả cho các phương pháp hồi quy khác nhau, chủ yếu là hồi quy tuyến tính, hồi quy tuyến tính bị phạt (Lasso, Ridge, ElasticNet), dựa trên cây (rừng ngẫu nhiên , máy tăng cường độ dốc).
Tôi biết rằng trong hồi quy tuyến tính, các vấn đề đa cộng tuyến xảy ra (mặc dù trong thực tế tôi đã trang bị hồi quy tuyến tính bằng OHE mà không gặp vấn đề gì).
Tuy nhiên, mã hóa giả có cần phải được sử dụng trong tất cả chúng không và kết quả sẽ sai như thế nào nếu một người sử dụng mã hóa một lần nóng?
Trọng tâm của tôi là dự đoán trong các mô hình hồi quy với nhiều biến phân loại (cardinality cao), vì vậy tôi không quan tâm đến các khoảng tin cậy.