Giả sử rằng bạn cần phân loại một cái gì đó trong các lớp K, trong đó K> 2. Trong trường hợp này, thiết lập thường xuyên nhất tôi sử dụng là một mã hóa nóng. Bạn sẽ có các cột đầu ra K và trong tập huấn luyện, bạn sẽ đặt tất cả các giá trị thành 0, ngoại trừ cột có chỉ số danh mục, có thể có giá trị 1. Do đó, đối với mỗi trường hợp tập dữ liệu đào tạo, bạn sẽ có tất cả các đầu ra có giá trị 0 hoặc 1, tất cả các kết quả đầu ra tổng bằng 1 cho mỗi trường hợp.
Điều này trông giống như một xác suất, nhắc nhở tôi về một kỹ thuật thường được sử dụng để kết nối một số đầu ra được mô hình hóa như xác suất. Đây được gọi là chức năng softmax, chi tiết hơn trên Wikipedia . Điều này sẽ cho phép bạn đặt một số ràng buộc cho các giá trị đầu ra (về cơ bản là khái quát hóa hàm logistic) để các giá trị đầu ra sẽ được mô hình hóa thành xác suất.
Cuối cùng, có hoặc không có softmax, bạn có thể sử dụng đầu ra làm hàm phân biệt để chọn danh mục phù hợp.
Một suy nghĩ cuối cùng khác là tránh mã hóa các biến của bạn theo cách được kết nối. Ví dụ, bạn có thể có biểu diễn nhị phân của chỉ mục danh mục. Điều này sẽ tạo cho người học một kết nối nhân tạo giữa một số đầu ra tùy ý. Mã hóa nóng có một ưu điểm là trung tính với cách các nhãn được lập chỉ mục.