Băm Trick - những gì thực sự xảy ra

Khi các thuật toán ML, ví dụ Vowpal Wợi hoặc một số máy nhân tố chiến thắng nhấp qua các cuộc thi tỷ lệ ( Kaggle ), đề cập đến các tính năng được 'băm', điều đó thực sự có ý nghĩa gì đối với mô hình? Hãy nói rằng có một biến đại diện cho ID của một tiện ích bổ sung internet, lấy các giá trị như '236BG231'. Sau đó, tôi hiểu rằng tính năng này được băm thành một số nguyên ngẫu nhiên. Nhưng, câu hỏi của tôi là:

Là số nguyên hiện được sử dụng trong mô hình, dưới dạng số nguyên (số) HOẶC
giá trị băm thực sự vẫn được xử lý như một biến phân loại và mã hóa một nóng? Vì vậy, thủ thuật băm chỉ là để tiết kiệm không gian bằng cách nào đó với dữ liệu lớn?

machine-learning predictive-modeling kaggle

— B_Miner
nguồn

Viên đạn thứ hai là giá trị trong tính năng băm. Băm và một mã hóa nóng để dữ liệu thưa thớt tiết kiệm không gian. Tùy thuộc vào thuật toán băm, bạn có thể có các mức độ va chạm khác nhau, hoạt động như một loại giảm kích thước.

Ngoài ra, trong trường hợp cụ thể của tính năng băm Kaggle và một trợ giúp mã hóa nóng với tính năng mở rộng / kỹ thuật bằng cách lấy tất cả các bộ dữ liệu có thể (thường chỉ là thứ hai nhưng đôi khi là thứ ba) các tính năng được băm bằng các va chạm tạo ra các tương tác thường được dự đoán trong khi các tính năng riêng lẻ thì không.

Trong hầu hết các trường hợp, kỹ thuật này kết hợp với lựa chọn tính năng và chính quy hóa mạng đàn hồi trong LR hoạt động rất giống với một lớp NN ẩn nên nó thực hiện khá tốt trong các cuộc thi.

— cwharland
nguồn

Vì vậy, mã hóa một nóng vẫn được sử dụng, chỉ trên các giá trị băm * mà như bạn nói sẽ tiết kiệm không gian và có thể làm giảm kích thước (va chạm nhất định). Đúng không?

— B_Miner

Mã hóa một máy chủ không phải là một phần bắt buộc của các tính năng băm nhưng thường được sử dụng cùng với vì nó giúp ích rất nhiều cho khả năng dự đoán. Một cách để nghĩ về một mã hóa nóng là chuyển đổi một tính năng từ một tập hợp N giá trị rời rạc thành N câu hỏi nhị phân. Có lẽ nó không quan trọng đối với tôi nếu tính năng J là 2 hoặc 3 chỉ là nó không 4. One Hot làm cho sự khác biệt đó trở nên cụ thể. Điều này giúp ích rất nhiều cho các mô hình tuyến tính trong khi các phương pháp tiếp cận (như RF) sẽ quét các điểm ngắt trong tính năng để tìm ra sự khác biệt đó.

— cwharland