Tôi có 2 bộ dữ liệu, một bộ có các trường hợp tích cực về những gì tôi muốn phát hiện và một bộ có các trường hợp không được gắn nhãn. Tôi có thể sử dụng phương pháp nào?
Ví dụ, giả sử chúng tôi muốn hiểu phát hiện email spam dựa trên một vài đặc điểm email có cấu trúc. Chúng tôi có một bộ dữ liệu gồm 10000 email spam và một bộ dữ liệu gồm 100000 email mà chúng tôi không biết liệu chúng có phải là thư rác hay không.
Làm thế nào chúng ta có thể giải quyết vấn đề này (mà không dán nhãn thủ công bất kỳ dữ liệu chưa được gắn nhãn nào)?
Chúng tôi có thể làm gì nếu chúng tôi có thêm thông tin về tỷ lệ thư rác trong dữ liệu chưa được gắn nhãn (nghĩa là nếu chúng tôi ước tính rằng từ 20 đến 40% trong số 100000 email không được gắn nhãn là thư rác) thì sao?