Có hai cách khác nhau để mã hóa các biến phân loại. Nói, một biến phân loại có n giá trị. Mã hóa một nóng chuyển đổi nó thành n biến, trong khi mã hóa giả chuyển đổi nó thành biến n-1 . Nếu chúng ta có k biến phân loại, mỗi biến có n giá trị. Một mã hóa nóng kết thúc bằng biến kn , trong khi mã hóa giả kết thúc bằng biến kn-k .
Tôi nghe nói rằng đối với mã hóa một nóng, việc chặn có thể dẫn đến vấn đề về cộng tuyến, khiến cho mô hình không phát ra âm thanh. Có người gọi nó là " bẫy biến giả ".
Những câu hỏi của tôi:
Mô hình hồi quy tuyến tính của Scikit-learn cho phép người dùng tắt chức năng chặn. Vì vậy, đối với mã hóa một lần nóng, tôi có nên luôn đặt fit_intercept = false không? Đối với mã hóa giả, fit_intercept phải luôn được đặt thành True? Tôi không thấy bất kỳ "cảnh báo" nào trên trang web.
Vì mã hóa một nóng tạo ra nhiều biến hơn, nó có mức độ tự do hơn mã hóa giả không?