Đơn giản chỉ cần đặt vì một cấp tính năng phân loại của bạn (ở đây là vị trí) trở thành nhóm tham chiếu trong quá trình mã hóa giả để hồi quy và là dự phòng. Tôi đang trích dẫn mẫu ở đây "Một biến phân loại của K loại hoặc cấp độ, thường đi vào hồi quy dưới dạng một chuỗi các biến giả K-1. Điều này có nghĩa là một giả thuyết tuyến tính về cấp độ có nghĩa."
Điều này đã được thảo luận tại câu trả lời thống kê rất hay này.stackexchange .
Tôi được cho biết có một khóa học nâng cao của Yandex ở Coursera bao gồm chủ đề này chi tiết hơn nếu bạn vẫn còn nghi ngờ, xem tại đây . Lưu ý bạn luôn có thể kiểm toán nội dung khóa học miễn phí. ;-)
Một bài viết hay khác nếu bạn muốn một lời giải thích kỹ lưỡng với nhiều ví dụ với quan điểm thống kê và không bị giới hạn chỉ mã hóa giả, hãy xem bài này từ UCLA (bằng R)
Lưu ý rằng nếu bạn sử dụng pandas.get_dummies
, có một tham số tức là drop_first
có nên lấy các hình nộm k-1 ra khỏi các cấp phân loại k bằng cách loại bỏ cấp đầu tiên. Xin lưu ý default = False
, có nghĩa là tài liệu tham khảo không bị bỏ và k dummies được tạo ra từ k cấp độ phân loại!