Trong một phân loại đơn giản, chúng ta có hai lớp: lớp-0 và lớp-1. Trong một số dữ liệu tôi chỉ có các giá trị cho lớp 1, vì vậy không có giá trị nào cho lớp 0. Bây giờ tôi đang nghĩ về việc tạo một mô hình để mô hình hóa dữ liệu cho lớp 1. Vì vậy, khi dữ liệu mới xuất hiện, mô hình này được áp dụng cho dữ liệu mới và tìm thấy xác suất cho biết khả năng dữ liệu mới phù hợp với mô hình này như thế nào. Sau đó so sánh với một ngưỡng, tôi có thể lọc dữ liệu không phù hợp.
Câu hỏi của tôi là:
- Đây có phải là một cách tốt để làm việc với các vấn đề như vậy?
- Phân loại RandomForest có thể được sử dụng cho trường hợp này không? Tôi có cần thêm dữ liệu nhân tạo cho lớp 0 mà tôi hy vọng bộ phân loại coi là nhiễu không?
- Bất kỳ ý tưởng khác có thể giúp cho vấn đề này?