Tôi thường nghe thấy việc lấy mẫu lên hoặc xuống của dữ liệu được thảo luận như một cách xử lý việc phân loại dữ liệu mất cân bằng.
Tôi hiểu rằng điều này có thể hữu ích nếu bạn làm việc với trình phân loại nhị phân (trái ngược với xác suất hoặc dựa trên điểm số) và coi nó như một hộp đen, vì vậy các sơ đồ lấy mẫu là cách duy nhất để bạn điều chỉnh vị trí của nó trên "đường cong ROC "(Trong ngoặc kép vì nếu phân loại của bạn vốn là nhị phân, tôi đoán nó không có đường cong ROC thực sự, nhưng cùng một khái niệm về giao dịch dương tính giả và phủ định sai vẫn được áp dụng).
Nhưng có vẻ như sự biện minh tương tự không giữ được nếu bạn thực sự có quyền truy cập vào một số loại điểm mà sau đó bạn sẽ đưa ra quyết định. Trong trường hợp này, không phải lấy mẫu chỉ là một cách quảng cáo thể hiện quan điểm về sự đánh đổi mong muốn của bạn giữa dương tính giả và âm tính giả khi bạn có sẵn các công cụ tốt hơn, như phân tích ROC thực tế? Trong trường hợp này có vẻ kỳ lạ khi dự kiến lấy mẫu lên hoặc xuống mẫu để làm bất cứ điều gì ngoại trừ thay đổi "trước" của trình phân loại của bạn trên mỗi lớp (nghĩa là xác suất vô điều kiện là lớp đó, dự đoán cơ sở) - Tôi sẽ không t hy vọng nó sẽ thay đổi "tỷ lệ chênh lệch" của bộ phân loại (bao nhiêu bộ phân loại điều chỉnh dự đoán cơ sở của nó dựa trên các hiệp phương sai).
Vì vậy, câu hỏi của tôi là: nếu bạn có một bộ phân loại không phải là hộp đen nhị phân, có lý do nào để mong đợi việc lấy mẫu lên hoặc xuống có hiệu quả tốt hơn nhiều so với việc điều chỉnh ngưỡng theo ý thích của bạn không? Không có điều đó, có bất kỳ nghiên cứu thực nghiệm nào cho thấy hiệu quả hợp lý lớn đối với việc lấy mẫu lên hoặc xuống đối với các số liệu hiệu suất hợp lý (ví dụ: không chính xác) không?