Tập dữ liệu kiểm tra không cân bằng cao và dữ liệu đào tạo cân bằng trong phân loại

9

Tôi có một bộ huấn luyện với khoảng 3000 trường hợp tích cực và 3000 trường hợp tiêu cực. Nhưng bộ dữ liệu thử nghiệm của tôi là khá nhiều không cân bằng. Tập hợp dương chỉ có 50 trường hợp và âm có 1500 trường hợp. Điều này gây ra độ chính xác rất thấp. Có cách tiếp cận nào để giải quyết vấn đề này không? Tôi sử dụng SVM để xây dựng phân loại.

— người dùng785099
nguồn

3

Điều này không nên xảy ra ..... Dữ liệu huấn luyện và dữ liệu thử nghiệm phải là các lựa chọn ngẫu nhiên từ cùng một bộ dữ liệu.

— Peter Flom

5

Đây được gọi là cài đặt Dataset Shift. Pdf này [1] sẽ giúp bạn hiểu một số vấn đề tiềm ẩn liên quan.

Tuy nhiên, hiện tại, bạn có thể sử dụng mức độ quan trọng bình phương tối thiểu để có được ước tính tầm quan trọng cho dữ liệu đào tạo của mình bằng bộ kiểm tra của bạn (bạn không cần nhãn của bộ kiểm tra, chỉ cần các vectơ đặc trưng) [2]. Khi bạn đạt được các ước tính quan trọng, bạn có thể sử dụng chúng làm trọng số thể hiện trong libSVM [3].

Điều đó sẽ cho phép bạn có được một phân loại tốt hơn.

[1] http://www.acad.bg/ebook/ml/The.MIT.Press.Dataset.Shift.in.Machine.Learning.Feb.2009.eBook-DDU.pdf
[2] http: // www .ms.ku-tokyo.ac.jp / software.html # uLSIF
[3] http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instances

— TenaliRaman
nguồn

Điều gì sẽ xảy ra nếu tập huấn luyện được cân bằng nhưng tập kiểm thử thì không? Cả hai nên có cùng một phân phối?

— Wannik

1

@wannik Nếu tập huấn luyện và kiểm tra của bạn là các mẫu ngẫu nhiên từ dữ liệu thực tế, thì chúng phải có các bản phân phối giống hệt nhau. Hầu như mọi phân loại chúng tôi sử dụng đều mong muốn dữ liệu thuộc dạng này. Tuy nhiên, tình huống bạn mô tả là một kịch bản khá phổ biến. Thật khó để dự đoán hành vi của phân loại trong tình huống này. Nói chung, 1] Sử dụng trình phân loại đơn giản, nếu nó hoạt động thì tuyệt vời, 2] Nếu không, bạn có biết tỷ lệ lớp trong kiểm tra apriori không? Nếu có, sau đó sử dụng tải nạp SVM 3] Nếu không, sau đó sử dụng cùng một cách tiếp cận được mô tả trong câu trả lời ban đầu (trọng số quan trọng).

— TenaliRaman

1

Liên kết cập nhật đến phần mềm ước tính tầm quan trọng từ Sugiyama et al. ms.ku-tokyo.ac.jp/software.html#uLSIF

— AruniRC

1

Bạn có nghĩ rằng 'thế giới thực' trông giống như tập huấn luyện hay tập kiểm tra không? Nếu nó trông giống tập huấn luyện hơn, bạn có thể lấy mẫu ngẫu nhiên 50 trường hợp từ tập kiểm tra âm tính của bạn để có được ước tính chính xác không thiên vị hơn. Nhưng tôi đồng ý với Peter Flom: Nói chung, bộ thử nghiệm và xe lửa của bạn nên trông giống nhau.

— Đánh cuộc Stefan
nguồn