5
Tôi nên đi tìm bộ dữ liệu 'cân bằng' hay bộ dữ liệu 'đại diện'?
Nhiệm vụ 'học máy' của tôi là tách lưu lượng truy cập Internet lành tính khỏi lưu lượng độc hại. Trong kịch bản thế giới thực, hầu hết (nói 90% trở lên) lưu lượng truy cập Internet là lành tính. Vì vậy, tôi cảm thấy rằng tôi nên chọn một …