Tôi là người mới bắt đầu học máy và tôi đang đối mặt với một tình huống. Tôi đang giải quyết vấn đề Đặt giá thầu theo Thời gian thực, với bộ dữ liệu IPinYou và tôi đang cố gắng thực hiện dự đoán nhấp chuột.
Vấn đề là, như bạn có thể biết, bộ dữ liệu rất không cân bằng: Khoảng 1300 ví dụ tiêu cực (không nhấp chuột) cho 1 ví dụ tích cực (nhấp chuột).
Đây là những gì tôi làm:
- Tải dữ liệu
- Chia bộ dữ liệu thành 3 bộ dữ liệu: A = Đào tạo (60%) B = Xác thực (20%) C = Kiểm tra (20%)
- Đối với mỗi tập dữ liệu (A, B, C), hãy lấy mẫu dưới mỗi lớp âm để có tỷ lệ 5 (5 ví dụ âm cho 1 ví dụ tích cực). Điều này mang lại cho tôi 3 bộ dữ liệu mới cân bằng hơn: A 'B' C '
Sau đó, tôi huấn luyện mô hình của mình với tập dữ liệu A 'và hồi quy logistic.
Câu hỏi của tôi là:
Bộ dữ liệu nào tôi phải sử dụng để xác nhận? B hay B '?
Bộ dữ liệu nào tôi phải sử dụng để thử nghiệm? C hoặc C '
Những số liệu nào là phù hợp nhất để đánh giá mô hình của tôi? F1Score dường như là một số liệu được sử dụng tốt. Nhưng ở đây do lớp không cân bằng (nếu tôi sử dụng bộ dữ liệu B và C), độ chính xác thấp (dưới 0,20) và F1Score bị ảnh hưởng rất nhiều bởi độ thu hồi / độ chính xác thấp. Điều đó sẽ chính xác hơn để sử dụng aucPR hoặc aucROC?
Nếu tôi muốn vẽ đường cong học tập, tôi nên sử dụng số liệu nào? (biết rằng% lỗi không liên quan nếu tôi sử dụng bộ dữ liệu B 'để xác thực)
Cảm ơn trước cho thời gian của bạn !
Trân trọng.