Khi các thuật toán ML, ví dụ Vowpal Wợi hoặc một số máy nhân tố chiến thắng nhấp qua các cuộc thi tỷ lệ ( Kaggle ), đề cập đến các tính năng được 'băm', điều đó thực sự có ý nghĩa gì đối với mô hình? Hãy nói rằng có một biến đại diện cho ID của một tiện ích bổ sung internet, lấy các giá trị như '236BG231'. Sau đó, tôi hiểu rằng tính năng này được băm thành một số nguyên ngẫu nhiên. Nhưng, câu hỏi của tôi là:
- Là số nguyên hiện được sử dụng trong mô hình, dưới dạng số nguyên (số) HOẶC
- giá trị băm thực sự vẫn được xử lý như một biến phân loại và mã hóa một nóng? Vì vậy, thủ thuật băm chỉ là để tiết kiệm không gian bằng cách nào đó với dữ liệu lớn?