Để đơn giản, giả sử tôi đang làm việc với ví dụ cổ điển về email spam / không phải thư rác.
Tôi có một bộ 20000 email. Trong số này, tôi biết rằng 2000 là thư rác nhưng tôi không có ví dụ nào về email không phải thư rác. Tôi muốn dự đoán liệu 18000 còn lại có phải là thư rác hay không. Lý tưởng nhất, kết quả mà tôi đang tìm kiếm là một xác suất (hoặc giá trị p) rằng email là thư rác.
Tôi có thể sử dụng thuật toán nào để đưa ra dự đoán hợp lý trong tình huống này?
Hiện tại, tôi đang nghĩ đến một phương pháp dựa trên khoảng cách sẽ cho tôi biết email của tôi giống với email spam đã biết như thế nào. Tôi có những lựa chọn nào?
Tổng quát hơn, tôi có thể sử dụng phương pháp học có giám sát hay tôi nhất thiết phải có các trường hợp tiêu cực trong tập huấn luyện của mình để làm điều đó? Tôi có bị giới hạn trong các phương pháp học tập không giám sát? Còn phương pháp bán giám sát thì sao?