Bạn có thể sử dụng mã hóa biến giả nếu các trường hợp. Bạn có thể nâng cao ý tưởng này cho vấn đề của bạn là tốt. Tôi sẽ minh họa thủ tục cho một hồi quy tuyến tính đơn giản.
Hãy tưởng tượng chúng ta muốn dự đoán thu nhập của một người bằng cách sử dụng nhiều năm giáo dục , các bài giảng đã dạy , các bài báo được xuất bản và vị trí học tập hiện tại . Các mẫu có chứa những người học tập cũng như những người không học tập.yix1ix2ix3ix4i
1. Thay thế : Gán các giá trị void tự nhiên. Ví dụ: Nếu chúng tôi đang tìm kiếm một đứa trẻ, sẽ không có ý nghĩa bao gồm thu nhập. Nhưng Thu nhập có giá trị rỗng tự nhiên là . Bạn có thể kiểm tra xem các biến của bạn cũng cho phép giá trị void như vậy.0
2. Thay thế : Bạn có thể chia dữ liệu thành hai nhóm (học thuật và không học thuật). Và chạy hai mô hình riêng biệt.
3. Thay thế : Giới thiệu một biến giả mới biến này là nếu người không học tập và giá trị là nếu người học tập. Sau đó, mô hình hồi quy của bạn sẽ trông như thế nàois_academic
x5i0i1i
yi=w0+w~0x5i+w1x1i+w~1x5ix1i+w~2x5ix2i+w~3x5ix3i++w~4x5ix4i+εi
Vì vậy, tập dữ liệu của chúng tôi không phải là mà là . Bây giờ bộ dữ liệu đã hoàn tất nhưng mô hình không sử dụng hàm cơ sở tuyến tính nữa.x1i,x2i,x3i,x4i,yix1i,x5i,x5ix1i,x5ix2i,x5ix3i,x5ix4i,yi
Tương tự, bạn có thể suy nghĩ về tập dữ liệu của mình và giới thiệu các biến giả khi bạn thấy rằng một số tính năng chỉ hiện diện / hữu ích cho một mẫu trong tập dữ liệu của bạn.