Đưa ra một chuỗi các đầu vào, tôi cần xác định xem chuỗi này có thuộc tính mong muốn nhất định hay không. Thuộc tính chỉ có thể đúng hoặc sai, nghĩa là chỉ có hai lớp có thể thuộc về một chuỗi.
Mối quan hệ chính xác giữa chuỗi và tài sản là không rõ ràng, nhưng tôi tin rằng nó rất nhất quán và nên cho vay để phân loại thống kê. Tôi có một số lượng lớn các trường hợp để huấn luyện bộ phân loại trên, mặc dù nó có thể hơi ồn, theo nghĩa là có một xác suất nhỏ rằng một chuỗi được gán sai lớp trong tập huấn luyện này.
Ví dụ dữ liệu đào tạo:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
Nói một cách dễ hiểu, thuộc tính được xác định bởi tập hợp các giá trị trong chuỗi (ví dụ: sự hiện diện của "11" có nghĩa là thuộc tính gần như chắc chắn là sai), cũng như thứ tự của các giá trị (ví dụ: "21 7 5 "Tăng đáng kể cơ hội tài sản là đúng).
Sau khi đào tạo, tôi sẽ có thể cung cấp cho trình phân loại một chuỗi chưa từng thấy trước đó (1 21 7 5 3)
, và nó sẽ tạo ra sự tự tin rằng tài sản là đúng. Có một thuật toán nổi tiếng để đào tạo một bộ phân loại với loại đầu vào / đầu ra này không?
Tôi đã xem xét bộ phân loại Bayes ngây thơ (không thực sự thích ứng với thực tế là thứ tự có vấn đề, ít nhất là không phá vỡ nghiêm trọng giả định rằng các đầu vào là độc lập). Tôi cũng đã nghiên cứu cách tiếp cận mô hình Markov ẩn, dường như không thể áp dụng được vì chỉ có một đầu ra duy nhất, thay vì một đầu ra cho mỗi đầu vào. Tôi đã bỏ lở những gì?