Trước hết, tôi muốn mô tả một số bố cục phổ biến mà sách Khai thác dữ liệu sử dụng giải thích cách xử lý Dữ liệu không cân bằng . Thông thường, phần chính được đặt tên là Bộ dữ liệu không cân bằng và chúng bao gồm hai phần phụ: Phân loại nhạy cảm chi phí và Kỹ thuật lấy mẫu.
Dường như đối mặt với một vấn đề với một lớp hiếm, bạn có thể thực hiện cả phân loại và lấy mẫu nhạy cảm với chi phí. Thay vào đó, tôi nghĩ rằng người ta nên áp dụng các kỹ thuật nhạy cảm với chi phí nếu lớp hiếm cũng là mục tiêu của phân loại và việc phân loại sai một bản ghi của lớp đó là tốn kém.
Mặt khác, các kỹ thuật lấy mẫu, chẳng hạn như lấy mẫu quá mức và lấy mẫu dưới mức, rất hữu ích nếu mục tiêu của phân loại là độ chính xác tổng thể tốt, mà không tập trung vào một lớp cụ thể.
Niềm tin này xuất phát từ lý do của MetaCost , đó là một cách chung để làm cho một bộ phân loại nhạy cảm với chi phí: nếu một người muốn tạo một bộ phân loại nhạy cảm với chi phí để xử phạt một lỗi phân loại sai của lớp hiếm, anh ta nên lấy mẫu quá mức của lớp khác . Nói một cách đơn giản, trình phân loại cố gắng thích ứng với lớp khác và nó trở nên cụ thể đối với lớp hiếm.
Điều này ngược lại với việc lấy mẫu quá mức của lớp hiếm, đó là cách thường được đề xuất để giải quyết vấn đề này. Lấy mẫu quá mức của lớp hiếm hoặc dưới mẫu của lớp khác là hữu ích để cải thiện độ chính xác tổng thể.
Xin vui lòng, sẽ thật tuyệt nếu bạn xác nhận suy nghĩ của tôi.
Nói rằng, câu hỏi phổ biến đối với một bộ dữ liệu không cân bằng là:
Tôi có nên thử lấy một tập dữ liệu có số lượng hồ sơ hiếm như những hồ sơ khác không?
Câu trả lời của tôi sẽ là, trong trường hợp bạn đang tìm kiếm sự chính xác: OK. Bạn có thể thực hiện nó hoặc tìm ra các ví dụ lớp hiếm hơn hoặc xóa một số bản ghi của lớp khác.
Trong trường hợp bạn đang tập trung vào lớp hiếm, với kỹ thuật nhạy cảm với chi phí, tôi sẽ trả lời: bạn chỉ có thể tìm ra ví dụ về lớp hiếm hơn nhưng bạn không nên xóa các bản ghi của lớp khác. Trong trường hợp sau, bạn sẽ không thể để trình phân loại thích ứng với lớp khác và lỗi phân loại sai lớp hiếm có thể tăng lên.
Bạn sẽ trả lời gì?