Chuỗi đầu vào trong Machine Learning


8

Một số thuật toán học máy phổ biến như hồi quy Logistic hoặc mạng nơ-ron yêu cầu đầu vào của nó là số.

Điều tôi quan tâm là cách bạn làm cho các thuật toán này hoạt động trên các đầu vào không phải là số (chẳng hạn như các chuỗi ngắn).

Ví dụ: giả sử chúng tôi đang xây dựng một hệ thống phân loại email (spam / không phải spam), trong đó một trong những tính năng đầu vào là địa chỉ người gửi.

Để có thể sử dụng thuật toán học tập, chúng ta cần biểu diễn địa chỉ người gửi dưới dạng số. Một cách đơn giản là đánh số người gửi 1..n. Tập huấn luyện của chúng tôi có thể trông như thế này:

đầu vào cho máy học

Tuy nhiên, điều này sẽ không hoạt động vì các thuật toán như hồi quy Logistic hoặc mạng nơ-ron học các mẫu trong dữ liệu đầu vào, trong khi trong ví dụ của chúng tôi, đầu ra trông hoàn toàn ngẫu nhiên với thuật toán. Thật vậy, một lần trong một lớp học đại học, chúng tôi đã cố gắng đào tạo một mạng nơ-ron trên một tập dữ liệu trông giống như thế này và mạng không thể học được gì (đường cong học tập là phẳng).

Bạn có sử dụng hồi quy Logistic hoặc mạng nơ-ron trong ví dụ này không? Nếu có, theo cách nào? Nếu không, cách tốt nhất để phân loại email dựa trên địa chỉ người gửi là gì?

Một câu trả lời hoàn hảo sẽ thảo luận về ví dụ phân loại email cũng như xử lý các chuỗi ngắn trong ML nói chung.

Câu trả lời:


4

Một trong những mô hình phổ biến là mô hình Bag of Words

Ngoài ra, bạn có thể mô hình hóa các từ dưới dạng số nguyên .. chúng có 'số liệu khoảng cách tương đối' cho điều đó và nắm bắt được bản chất của quá trình phân loại. Tuy nhiên, một nhược điểm của nó là bước tiền xử lý rất tốn kém và bạn cũng cần có một số kiến thức về miền.

d(walk,talk)<d(walk,plod)

Các số liệu phụ thuộc vào ngữ cảnh của quy trình phân loại .. ví dụ: số liệu khoảng cách của bạn để phân loại các từ có vần sẽ khác với các từ được thiết kế để phân loại từ đồng nghĩa / từ truyền đạt ý nghĩa tương tự. Để biết danh sách các số liệu chuỗi, hãy xem bài viết trên wikipedia này .

Ngoài ra, bạn có thể xem bài đánh giá này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.