phương pháp đào tạo cho tập dữ liệu mất cân bằng cao


16

Tôi có một bộ dữ liệu kiểm tra mất cân bằng cao. Tập hợp tích cực bao gồm 100 trường hợp trong khi tập hợp âm bao gồm 1500 trường hợp. Về mặt đào tạo, tôi có một nhóm ứng viên lớn hơn: bộ đào tạo tích cực có 1200 trường hợp và bộ đào tạo tiêu cực có 12000 trường hợp. Đối với loại kịch bản này, tôi có một số lựa chọn:

1) Sử dụng SVM có trọng số cho toàn bộ tập huấn luyện (P: 1200, N: 12000)

2) Sử dụng SVM dựa trên tập huấn luyện được lấy mẫu (P: 1200, N: 1200), 1200 trường hợp tiêu cực được lấy mẫu từ 12000 trường hợp.

Có hướng dẫn lý thuyết nào về việc quyết định phương pháp nào tốt hơn không? Vì tập dữ liệu kiểm tra rất mất cân bằng, tôi có nên sử dụng tập huấn luyện mất cân bằng không?


1
vui lòng kiểm tra các câu hỏi sau: Học có giám sát với các sự kiện hiếm hoicách tốt nhất để xử lý tập dữ liệu đa giác không cân bằng với SVM . Không giúp đỡ à ? Thành thật mà nói, câu hỏi của bạn nghe khá giống nhau;).
steffen

Câu trả lời:



0

Kết hợp hồi quy logistic mở rộng, học tập dựa trên ROC, tăng cường và đóng gói (tổng hợp Bootstrap), tập hợp cụm dựa trên liên kết (LCE), Mạng Bayesian, phân loại trung tâm gần nhất, Kỹ thuật Bayes, tập thô có trọng số, k-NN

và rất nhiều phương pháp lấy mẫu để xử lý sự mất cân bằng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.