Kiểm tra phân loại dữ liệu mất cân bằng quá khổ


18

Tôi đang làm việc trên dữ liệu mất cân bằng nghiêm trọng. Trong tài liệu, một số phương pháp được sử dụng để cân bằng lại dữ liệu bằng cách lấy mẫu lại (lấy mẫu quá mức hoặc dưới mẫu). Hai cách tiếp cận tốt là:

  • SMOTE: Tổng hợp thiểu số quá mức TEchnique ( SMOTE )

  • ADASYN: Phương pháp lấy mẫu tổng hợp thích ứng cho việc học không cân bằng ( ADASYN )

Tôi đã triển khai ADASYN vì bản chất thích ứng của nó và dễ dàng mở rộng cho các vấn đề đa lớp.

Câu hỏi của tôi là làm thế nào để kiểm tra dữ liệu quá khổ được tạo ra bởi ADASYN (hoặc bất kỳ phương pháp quá khổ nào khác). Không rõ ràng trong hai bài báo đã đề cập đến cách họ thực hiện thí nghiệm của họ. Có hai kịch bản:

1- Ghi đè toàn bộ tập dữ liệu, sau đó tách nó thành tập huấn luyện và kiểm tra (hoặc xác nhận chéo).

2- Sau khi tách tập dữ liệu gốc, chỉ thực hiện quá mức trên tập huấn luyện và kiểm tra tập kiểm tra dữ liệu gốc (có thể được thực hiện với xác thực chéo).

Trong trường hợp đầu tiên, kết quả tốt hơn nhiều so với việc không quá khổ, nhưng tôi lo ngại nếu có quá nhiều. Trong khi trong trường hợp thứ hai, kết quả tốt hơn một chút so với không bị quá khổ và tồi tệ hơn nhiều so với trường hợp thứ nhất. Nhưng mối quan tâm với trường hợp thứ hai là nếu tất cả các mẫu lớp thiểu số đi đến bộ thử nghiệm, thì sẽ không có lợi ích nào khi lấy mẫu quá mức.

Tôi không chắc chắn nếu có bất kỳ cài đặt nào khác để kiểm tra dữ liệu đó.

Câu trả lời:


18

Một vài bình luận:

Tùy chọn (1) là một ý tưởng rất xấu. Các bản sao của cùng một điểm có thể kết thúc trong cả bộ huấn luyện và kiểm tra. Điều này cho phép trình phân loại gian lận, bởi vì khi cố gắng đưa ra dự đoán trên tập kiểm tra, trình phân loại sẽ đã nhìn thấy các điểm giống hệt nhau trong tập huấn luyện. Điểm chung của việc có một bộ thử nghiệm và một bộ xe lửa là bộ thử nghiệm phải độc lập với bộ thử nghiệm.

Tùy chọn (2) là trung thực. Nếu bạn không có đủ dữ liệu, bạn có thể thử sử dụngk


Cảm ơn Stefan đã trả lời. Nhưng tôi muốn làm rõ một điểm: Các phương pháp tôi đã đề cập tạo ra các trường hợp "tổng hợp" của dữ liệu, không hoàn toàn giống với phương pháp ban đầu. Vì vậy, nó không chính xác như thể tôi đang thử nghiệm trên cùng một dữ liệu đào tạo. Nhưng, tôi vẫn không chắc chắn nếu tùy chọn 1 là một cách tiếp cận hợp lệ.
Giá vé

Ok tôi hiểu rồi! Tuy nhiên, vấn đề với (1) vẫn tồn tại, ngay cả khi bạn tạo dữ liệu "tổng hợp", vì dữ liệu tổng hợp thường rất giống với dữ liệu gốc mà nó đang bắt chước.
Stefan Wager

@StefanWager điều gì về phân phối bộ thử nghiệm? Nó có nên giống với tập dữ liệu gốc không?
Wannik

2
bất kỳ tài liệu tham khảo của các bài viết để hỗ trợ yêu cầu này?
cô gái 101

Cách tiếp cận của @ stefan là chính xác, bạn không bao giờ tăng hoặc tổng hợp bộ xác thực của mình vì đó là bằng chứng (kiểm tra) về cách mô hình của bạn đang học, bạn cần dữ liệu gốc để thực hiện
M090009

7

Tùy chọn thứ hai (2) là cách làm đúng. Các mẫu tổng hợp bạn tạo với các kỹ thuật oversampling không phải là ví dụ thực tế mà là tổng hợp. Đây không phải là hợp lệ cho mục đích thử nghiệm trong khi họ vẫn ok cho đào tạo. Chúng được dự định để sửa đổi hành vi của trình phân loại mà không sửa đổi thuật toán.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.