Nhiệm vụ 'học máy' của tôi là tách lưu lượng truy cập Internet lành tính khỏi lưu lượng độc hại. Trong kịch bản thế giới thực, hầu hết (nói 90% trở lên) lưu lượng truy cập Internet là lành tính. Vì vậy, tôi cảm thấy rằng tôi nên chọn một thiết lập dữ liệu tương tự để đào tạo các mô hình của mình. Nhưng tôi đã bắt gặp một hoặc hai bài nghiên cứu (trong lĩnh vực công việc của tôi) đã sử dụng phương pháp tiếp cận dữ liệu "cân bằng lớp" để đào tạo các mô hình, ngụ ý một số lượng tương đương lưu lượng truy cập lành tính và độc hại.
Nói chung, nếu tôi đang xây dựng các mô hình học máy, tôi nên tìm một tập dữ liệu đại diện cho vấn đề trong thế giới thực hoặc là một tập dữ liệu cân bằng phù hợp hơn để xây dựng các mô hình (vì các trình phân loại nhất định không hoạt động tốt với sự mất cân bằng lớp, hoặc do những lý do khác mà tôi không biết)?
Ai đó có thể làm sáng tỏ hơn về những ưu và nhược điểm của cả hai lựa chọn và làm thế nào để quyết định chọn cái nào?