Ý kiến ​​về Oversampling nói chung và thuật toán SMOTE nói riêng [đã đóng]


18

Ý kiến ​​của bạn về oversampling trong phân loại nói chung và thuật toán SMOTE nói riêng là gì? Tại sao chúng ta không chỉ áp dụng một chi phí / hình phạt để điều chỉnh sự mất cân bằng trong dữ liệu lớp và bất kỳ chi phí lỗi không cân bằng nào? Đối với mục đích của tôi, độ chính xác của dự đoán đối với các đơn vị thử nghiệm trong tương lai là biện pháp cuối cùng.

Để tham khảo, giấy SMOTE: http://www.jair.org/ con / paper953.html


1
Một vấn đề với việc chồng chéo một lớp thiểu số trong một tập dữ liệu không cân bằng là cuối cùng bạn sẽ học quá nhiều đặc điểm của một vài ví dụ và điều đó sẽ không khái quát tốt. SMOTE được cho là để tìm hiểu các thuộc tính tô pô của vùng lân cận của các điểm đó trong lớp thiểu số, do đó bạn ít có khả năng phù hợp hơn.
horaceT

2
Đây là một chủ đề tuyệt vời cho một câu hỏi, nhưng bạn có thể làm cho nó tập trung hơn một chút không? "Ý kiến ​​của bạn là gì?" mời thảo luận bất tận nhưng chúng ta có xu hướng tập trung mạnh hơn vào một định dạng câu hỏi / câu trả lời.
Sycorax nói Phục hồi lại

Câu trả lời:


19

{1} đưa ra danh sách các ưu điểm và nhược điểm của việc học nhạy cảm với chi phí so với lấy mẫu:

2.2 Lấy mẫu

Quá khổ và lấy mẫu có thể được sử dụng để thay đổi phân phối lớp của dữ liệu huấn luyện và cả hai phương pháp đã được sử dụng để đối phó với sự mất cân bằng của lớp [1, 2, 3, 6, 10, 11]. Lý do thay đổi phân phối lớp của dữ liệu đào tạo hỗ trợ việc học với các tập dữ liệu bị sai lệch cao là vì nó áp dụng hiệu quả chi phí phân loại sai không thống nhất. Ví dụ: nếu một người thay đổi phân phối lớp của tập huấn luyện để tỷ lệ giữa các ví dụ tích cực và tiêu cực đi từ 1: 1 đến 2: 1, thì người ta đã chỉ định một cách hiệu quả tỷ lệ chi phí phân loại sai là 2: 1. Sự tương đương này giữa việc thay đổi phân phối lớp của dữ liệu đào tạo và thay đổi tỷ lệ chi phí phân loại sai được biết đến và được mô tả chính thức bởi Elkan [9].

Có những nhược điểm đã biết liên quan đến việc sử dụng lấy mẫu để thực hiện việc học tập nhạy cảm với chi phí. Các bất lợi với undersampling là nó dữ liệu vứt bỏ khả năng hữu ích . Nhược điểm chính với quá khổ , theo quan điểm của chúng tôi, là bằng cách tạo ra các bản sao chính xác của các ví dụ hiện có, nó làm cho quá mức có thể xảy ra . Trong thực tế, với việc quá khổ, việc người học tạo ra một quy tắc phân loại để bao quát một ví dụ đơn lẻ là điều khá phổ biến. Một nhược điểm thứ hai của oversampling là nó làm tăng số lượng ví dụ đào tạo, do đó tôi làm tăng thời gian học .

2.3 Tại sao nên sử dụng Lấy mẫu?

Do các nhược điểm của việc lấy mẫu, nên hỏi tại sao mọi người sẽ sử dụng nó thay vì thuật toán học nhạy cảm với chi phí để xử lý dữ liệu với phân phối lớp bị lệch và chi phí phân loại sai không đồng nhất. Cái này có một vài nguyên nhân. Lý do rõ ràng nhất là không có triển khai nhạy cảm với chi phí của tất cả các thuật toán học tập và do đó, cách tiếp cận dựa trên trình bao bọc sử dụng lấy mẫu là lựa chọn duy nhất. Mặc dù điều này chắc chắn ít đúng với ngày nay so với trước đây, nhiều thuật toán học tập (ví dụ, C4.5) vẫn không trực tiếp xử lý chi phí trong quá trình học tập.

Một lý do thứ hai cho việc sử dụng lấy mẫu là nhiều bộ dữ liệu bị sai lệch rất lớn và kích thước của tập huấn luyện phải được giảm xuống để việc học có thể khả thi. Trong trường hợp này, gạch dưới dường như là một chiến lược hợp lý và hợp lệ. Trong bài báo này, chúng tôi không xem xét sự cần thiết phải giảm kích thước tập huấn luyện. Tuy nhiên, chúng tôi sẽ chỉ ra rằng nếu cần loại bỏ một số dữ liệu đào tạo, vẫn có thể có ích để loại bỏ một số ví dụ của lớp đa số để giảm kích thước tập huấn xuống kích thước yêu cầu, và sau đó cũng sử dụng chi phí thuật toán học nhạy cảm, để số lượng dữ liệu đào tạo bị loại bỏ được giảm thiểu.

Một lý do cuối cùng có thể đã góp phần vào việc sử dụng lấy mẫu thay vì thuật toán học tập nhạy cảm với chi phí là chi phí phân loại sai thường không được biết. Tuy nhiên, đây không phải là lý do hợp lệ để sử dụng lấy mẫu qua thuật toán học tập tốn kém, vì vấn đề tương tự phát sinh với lấy mẫu, phân phối lớp của dữ liệu đào tạo cuối cùng là gì? Nếu không biết thông tin chi phí này, một biện pháp như khu vực dưới đường cong ROC có thể được sử dụng để đo hiệu suất phân loại và cả hai phương pháp sau đó có thể xác định theo tỷ lệ chi phí / phân phối lớp phù hợp.

Họ cũng đã làm một loạt các thí nghiệm, không có kết luận:

Dựa trên kết quả từ tất cả các bộ dữ liệu, không có người chiến thắng dứt khoát giữa học tập nhạy cảm với chi phí, quá mức và thiếu mẫu

Sau đó, họ cố gắng hiểu tiêu chí nào trong bộ dữ liệu có thể gợi ý kỹ thuật nào phù hợp hơn.

Họ cũng nhận xét rằng SMOTE có thể mang lại một số cải tiến:

Có nhiều cải tiến mà mọi người đã thực hiện để cải thiện hiệu quả của việc lấy mẫu. Một số cải tiến này bao gồm giới thiệu các ví dụ mới về tổng hợp, khi quá mẫu [5 -> SMOTE], xóa các ví dụ lớp đa số ít hữu ích hơn khi lấy mẫu [11] và sử dụng nhiều mẫu phụ khi lấy mẫu nhỏ hơn mỗi ví dụ được sử dụng trong ít nhất một ví dụ mẫu phụ [3]. Mặc dù các kỹ thuật này đã được so sánh với quá khổ và gạch dưới, nhưng nhìn chung chúng không được so sánh với các thuật toán học tập nhạy cảm với chi phí. Điều này sẽ có giá trị học tập trong tương lai.


{1} Weiss, Gary M., Kate McCarthy và Bibi Zabar. "Học tập nhạy cảm với chi phí so với lấy mẫu: Cách nào tốt nhất để xử lý các lớp không cân bằng với chi phí lỗi không bằng nhau?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=vi&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


2
Khi bạn nói "thuật toán học tập nhạy cảm với chi phí", bộ não của tôi có nên nghĩ rằng "phạt các lớp có tần suất xuất hiện cao và có thể chỉ định tầm quan trọng hơn cho các lớp có tần số thấp" không? Là khái niệm này tương đương với việc gán trọng lượng lớp?
Jarad
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.