Cập nhật 2018!
Bạn có thể tạo một không gian nhúng (vector dày đặc) cho các biến phân loại của bạn. Nhiều bạn quen thuộc với word2vec và fastext, chúng nhúng các từ vào một không gian vectơ dày đặc có ý nghĩa. Cùng một ý tưởng ở đây-- các biến phân loại của bạn sẽ ánh xạ tới một vectơ với một số ý nghĩa.
Từ giấy Guo / Berkhahn :
Việc nhúng thực thể không chỉ làm giảm việc sử dụng bộ nhớ và tăng tốc các mạng thần kinh so với mã hóa một nóng, mà quan trọng hơn là bằng cách ánh xạ các giá trị tương tự gần nhau trong không gian nhúng, nó cho thấy các thuộc tính bên trong của các biến phân loại. Chúng tôi đã áp dụng nó thành công trong một cuộc thi Kaggle gần đây và có thể đạt được vị trí thứ ba với các tính năng đơn giản tương đối.
Các tác giả nhận thấy rằng việc đại diện cho các biến phân loại theo cách này đã cải thiện hiệu quả của tất cả các thuật toán học máy được thử nghiệm, bao gồm cả rừng ngẫu nhiên.
Ví dụ tốt nhất có thể là ứng dụng kỹ thuật của Pinterest vào các Ghim liên quan đến nhóm:
Những người ở fastai đã thực hiện các nhúng nhúng phân loại và tạo ra một bài đăng blog rất đẹp với máy tính xách tay demo đồng hành .
Chi tiết bổ sung và giải thích
Một mạng lưới thần kinh được sử dụng để tạo ra các nhúng, tức là gán một vectơ cho mỗi giá trị phân loại. Khi bạn có các vectơ, bạn có thể sử dụng chúng trong bất kỳ mô hình nào chấp nhận giá trị số. Mỗi thành phần của vector trở thành một biến đầu vào. Ví dụ: nếu bạn đã sử dụng vectơ 3 chiều để nhúng danh sách màu phân loại của mình, bạn có thể nhận được một cái gì đó như: red = (0, 1.5, -2.3), blue = (1, 1, 0), v.v. Bạn sẽ sử dụng ba các biến đầu vào trong rừng ngẫu nhiên của bạn tương ứng với ba thành phần. Đối với những thứ màu đỏ, c1 = 0, c2 = 1.5 và c3 = -2.3. Đối với những thứ màu xanh, c1 = 1, c2 = 1 và c3 = 0.
Bạn thực sự không cần phải sử dụng một mạng lưới thần kinh để tạo ra các nhúng (mặc dù tôi không khuyên bạn nên tránh xa kỹ thuật này). Bạn có thể tự tạo các nhúng của mình bằng tay hoặc các phương tiện khác, khi có thể. Vài ví dụ:
- Ánh xạ màu tới vectơ RGB.
- Ánh xạ vị trí đến vectơ lat / long.
- Trong một mô hình chính trị Hoa Kỳ, ánh xạ các thành phố tới một số thành phần vectơ đại diện cho sự liên kết trái / phải, gánh nặng thuế, v.v.