Các vấn đề mất cân bằng trong lớp học có thể được giải quyết bằng cách học hoặc lấy mẫu nhạy cảm với chi phí. Xem những lợi thế và bất lợi của việc học tập nhạy cảm với chi phí so với lấy mẫu , được sao chép dưới đây:
{1} đưa ra danh sách các ưu điểm và nhược điểm của việc học nhạy cảm với chi phí so với lấy mẫu:
2.2 Lấy mẫu
Quá khổ và lấy mẫu có thể được sử dụng để thay đổi phân phối lớp của dữ liệu huấn luyện và cả hai phương pháp đã được sử dụng để đối phó với sự mất cân bằng của lớp [1, 2, 3, 6, 10, 11]. Lý do thay đổi phân phối lớp của dữ liệu đào tạo hỗ trợ việc học với các tập dữ liệu bị sai lệch cao là vì nó áp dụng hiệu quả chi phí phân loại sai không thống nhất. Ví dụ: nếu một người thay đổi phân phối lớp của tập huấn luyện để tỷ lệ giữa các ví dụ tích cực và tiêu cực đi từ 1: 1 đến 2: 1, thì người ta đã chỉ định một cách hiệu quả tỷ lệ chi phí phân loại sai là 2: 1. Sự tương đương này giữa việc thay đổi phân phối lớp của dữ liệu đào tạo và thay đổi tỷ lệ chi phí phân loại sai được biết đến và được mô tả chính thức bởi Elkan [9].
Có những nhược điểm đã biết liên quan đến việc sử dụng lấy mẫu để thực hiện việc học tập nhạy cảm với chi phí. Các
bất lợi với undersampling là nó dữ liệu vứt bỏ khả năng hữu ích . Nhược điểm chính với quá khổ , theo quan điểm của chúng tôi, là bằng cách tạo ra các bản sao chính xác của các ví dụ hiện có, nó làm cho quá mức có thể xảy ra . Trong thực tế, với việc quá khổ, việc người học tạo ra một quy tắc phân loại để bao quát một ví dụ đơn lẻ là điều khá phổ biến. Một nhược điểm thứ hai của oversampling là nó làm tăng số lượng ví dụ đào tạo, do đó tôi làm tăng thời gian học .
2.3 Tại sao nên sử dụng Lấy mẫu?
Với những nhược điểm khi lấy mẫu, đáng để hỏi tại sao mọi người sẽ sử dụng nó thay vì thuật toán học nhạy cảm với chi phí để xử lý dữ liệu với phân phối lớp bị lệch và chi phí phân loại sai không đồng nhất. Cái này có một vài nguyên nhân. Lý do rõ ràng nhất là không có triển khai nhạy cảm với chi phí của tất cả các thuật toán học tập và do đó, cách tiếp cận dựa trên trình bao bọc sử dụng lấy mẫu là lựa chọn duy nhất. Mặc dù điều này chắc chắn ít đúng với ngày nay so với trước đây, nhiều thuật toán học tập (ví dụ, C4.5) vẫn không trực tiếp xử lý chi phí trong quá trình học tập.
Một lý do thứ hai cho việc sử dụng lấy mẫu là nhiều bộ dữ liệu bị sai lệch rất lớn và kích thước của tập huấn luyện phải được giảm xuống để việc học có thể khả thi. Trong trường hợp này, gạch dưới dường như là một chiến lược hợp lý và hợp lệ. Trong bài báo này, chúng tôi không xem xét sự cần thiết phải giảm kích thước tập huấn luyện. Tuy nhiên, chúng tôi sẽ chỉ ra rằng nếu cần loại bỏ một số dữ liệu đào tạo, vẫn có thể có ích để loại bỏ một số ví dụ của lớp đa số để giảm kích thước tập huấn xuống kích thước yêu cầu, và sau đó cũng sử dụng chi phí thuật toán học nhạy cảm, để số lượng dữ liệu đào tạo bị loại bỏ được giảm thiểu.
Một lý do cuối cùng có thể đã góp phần vào việc sử dụng lấy mẫu thay vì thuật toán học tập nhạy cảm với chi phí là chi phí phân loại sai thường không được biết. Tuy nhiên, đây không phải là lý do hợp lệ để sử dụng lấy mẫu qua thuật toán học tập tốn kém, vì vấn đề tương tự phát sinh với lấy mẫu, phân phối lớp của dữ liệu đào tạo cuối cùng là gì? Nếu không biết thông tin chi phí này, một biện pháp như khu vực dưới đường cong ROC có thể được sử dụng để đo hiệu suất phân loại và cả hai phương pháp sau đó có thể xác định theo tỷ lệ chi phí / phân phối lớp phù hợp.
Họ cũng đã làm một loạt các thí nghiệm, không có kết luận:
Dựa trên kết quả từ tất cả các bộ dữ liệu, không có người chiến thắng dứt khoát giữa học tập nhạy cảm với chi phí, quá mức và thiếu mẫu
Sau đó, họ cố gắng hiểu tiêu chí nào trong bộ dữ liệu có thể gợi ý kỹ thuật nào phù hợp hơn.
Họ cũng nhận xét rằng SMOTE có thể mang lại một số cải tiến:
Có nhiều cải tiến mà mọi người đã thực hiện để cải thiện hiệu quả của việc lấy mẫu. Một số cải tiến này bao gồm giới thiệu các ví dụ mới về tổng hợp, khi quá mẫu [5 -> SMOTE], xóa các ví dụ lớp đa số ít hữu ích hơn khi lấy mẫu [11] và sử dụng nhiều mẫu phụ khi lấy mẫu nhỏ hơn mỗi ví dụ được sử dụng trong ít nhất một mẫu mẫu phụ [3]. Mặc dù các kỹ thuật này đã được so sánh với quá khổ và gạch dưới, nhưng nhìn chung chúng không được so sánh với các thuật toán học tập nhạy cảm với chi phí. Điều này sẽ có giá trị học tập trong tương lai.
{1} Weiss, Gary M., Kate McCarthy và Bibi Zabar. "Học tập nhạy cảm với chi phí so với lấy mẫu: Cách nào tốt nhất để xử lý các lớp không cân bằng với chi phí lỗi không bằng nhau?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=vi&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf