Tôi có dữ liệu đào tạo được dán nhãn với các giá trị nhị phân. Tôi cũng đã thu thập được độ tin cậy của mỗi nhãn này, tức là độ tin cậy 0,8 có nghĩa là 80% người lao động của con người đồng ý với nhãn đó.
Có thể sử dụng dữ liệu độ tin cậy này để cải thiện độ chính xác của trình phân loại của tôi không?
Làm việc sau đây?
1a) Nếu nhãn là 0 và dữ liệu độ tin cậy cho nhãn đó là 0,8 thì cung cấp cho dữ liệu đào tạo một nhãn mới là 0,2
1b) Nếu nhãn là 1 và dữ liệu độ tin cậy cho nhãn đó là 0,8 thì cung cấp cho dữ liệu đào tạo một nhãn mới là 0,8
2) Tính nhãn mới bằng phương pháp này cho mọi mục trong tập huấn luyện
3) Xử lý vấn đề như một vấn đề hồi quy (trong đó các nhãn nằm trong khoảng từ 0 đến 1)
4) Phân loại dữ liệu không ghi nhãn dựa trên việc các nhãn mới ở trên hoặc dưới một giá trị cụ thể. tức là Cho tất cả các nhãn dự đoán loại 0 nếu dưới X và loại 1 nếu trên X.
Tôi hiện đang sử dụng một SVM với hạt nhân RBF cho mô hình của mình.
Cảm ơn trước!