Một số thuật toán học máy phổ biến như hồi quy Logistic hoặc mạng nơ-ron yêu cầu đầu vào của nó là số.
Điều tôi quan tâm là cách bạn làm cho các thuật toán này hoạt động trên các đầu vào không phải là số (chẳng hạn như các chuỗi ngắn).
Ví dụ: giả sử chúng tôi đang xây dựng một hệ thống phân loại email (spam / không phải spam), trong đó một trong những tính năng đầu vào là địa chỉ người gửi.
Để có thể sử dụng thuật toán học tập, chúng ta cần biểu diễn địa chỉ người gửi dưới dạng số. Một cách đơn giản là đánh số người gửi 1..n. Tập huấn luyện của chúng tôi có thể trông như thế này:
Tuy nhiên, điều này sẽ không hoạt động vì các thuật toán như hồi quy Logistic hoặc mạng nơ-ron học các mẫu trong dữ liệu đầu vào, trong khi trong ví dụ của chúng tôi, đầu ra trông hoàn toàn ngẫu nhiên với thuật toán. Thật vậy, một lần trong một lớp học đại học, chúng tôi đã cố gắng đào tạo một mạng nơ-ron trên một tập dữ liệu trông giống như thế này và mạng không thể học được gì (đường cong học tập là phẳng).
Bạn có sử dụng hồi quy Logistic hoặc mạng nơ-ron trong ví dụ này không? Nếu có, theo cách nào? Nếu không, cách tốt nhất để phân loại email dựa trên địa chỉ người gửi là gì?
Một câu trả lời hoàn hảo sẽ thảo luận về ví dụ phân loại email cũng như xử lý các chuỗi ngắn trong ML nói chung.