phương pháp đào tạo cho tập dữ liệu mất cân bằng cao

16

Tôi có một bộ dữ liệu kiểm tra mất cân bằng cao. Tập hợp tích cực bao gồm 100 trường hợp trong khi tập hợp âm bao gồm 1500 trường hợp. Về mặt đào tạo, tôi có một nhóm ứng viên lớn hơn: bộ đào tạo tích cực có 1200 trường hợp và bộ đào tạo tiêu cực có 12000 trường hợp. Đối với loại kịch bản này, tôi có một số lựa chọn:

1) Sử dụng SVM có trọng số cho toàn bộ tập huấn luyện (P: 1200, N: 12000)

2) Sử dụng SVM dựa trên tập huấn luyện được lấy mẫu (P: 1200, N: 1200), 1200 trường hợp tiêu cực được lấy mẫu từ 12000 trường hợp.

Có hướng dẫn lý thuyết nào về việc quyết định phương pháp nào tốt hơn không? Vì tập dữ liệu kiểm tra rất mất cân bằng, tôi có nên sử dụng tập huấn luyện mất cân bằng không?

— câu hỏi bit
nguồn

1

vui lòng kiểm tra các câu hỏi sau: Học có giám sát với các sự kiện hiếm hoi và cách tốt nhất để xử lý tập dữ liệu đa giác không cân bằng với SVM . Không giúp đỡ à ? Thành thật mà nói, câu hỏi của bạn nghe khá giống nhau;).

— steffen

7

Từ một bài đăng gần đây trên reddit, phản hồi của datapraxis sẽ được quan tâm.

chỉnh sửa: bài báo được đề cập là Haibo He, Edwardo A. Garcia, "Học từ dữ liệu mất cân bằng", Giao dịch của IEEE về kiến thức và kỹ thuật dữ liệu, trang 1263-1284, tháng 9, 2009 (PDF)

— người dùng728785
nguồn

0

Kết hợp hồi quy logistic mở rộng, học tập dựa trên ROC, tăng cường và đóng gói (tổng hợp Bootstrap), tập hợp cụm dựa trên liên kết (LCE), Mạng Bayesian, phân loại trung tâm gần nhất, Kỹ thuật Bayes, tập thô có trọng số, k-NN

và rất nhiều phương pháp lấy mẫu để xử lý sự mất cân bằng.

— Vladimir Chupakhin
nguồn