Bất cứ ai cũng có thể đưa ra một danh sách các thuật toán sẽ yêu cầu các tính năng phân loại phải được mã hóa nóng và những thuật toán nào không?
AFAIU, nó phải làm nhiều hơn với dữ liệu cụ thể , ít hơn với thuật toán cụ thể . Cụ thể, nó phụ thuộc vào việc có một số thứ tự có ý nghĩa trong danh mục hay không.
Hãy xem xét hai trường hợp. Trong lần đầu tiên bạn có các loại xấu, meh, tốt , và trong thứ hai bạn có táo, cam, lê . Có một trật tự tự nhiên trong trường hợp đầu tiên, bởi vì meh có lẽ ở giữa xấu và tốt , nhưng có lẽ không có gì tương tự xảy ra trong táo, cam, lê .
Nếu bạn tránh mã hóa một lần nóng cho trường hợp đầu tiên, bạn sẽ "mất" thông tin về đơn hàng. Nếu bạn sử dụng mã hóa một lần nóng cho trường hợp thứ hai, bạn đang gán một số thứ tự cho các danh mục không tự nhiên đúng.
Tôi làm điều đó bất cứ khi nào thuật toán sử dụng một thước đo khoảng cách để tính toán độ tương tự.
Tại sao? Giả sử một trong các tính năng là xấu phân loại , meh, tốt và bạn có ba trường hợp, 1, 2 và 3, trong đó chúng giống hệt nhau, ngoại trừ 1 là xấu , 2 là meh và 3 là tốt. Bạn có thể muốn diễn đạt với thuật toán rằng 1 giống với 2 hơn là 3.