Hướng dẫn nhanh vào đào tạo tập dữ liệu mất cân bằng cao

29

Tôi có một vấn đề phân loại với khoảng 1000 mẫu dương tính và 10000 mẫu âm tính trong tập huấn luyện. Vì vậy, tập dữ liệu này khá mất cân đối. Rừng ngẫu nhiên đồng bằng chỉ đang cố gắng đánh dấu tất cả các mẫu thử là một lớp đa số.

Một số câu trả lời hay về lấy mẫu phụ và rừng ngẫu nhiên có trọng số được đưa ra ở đây: Ý nghĩa của việc đào tạo một Cây tập hợp với các bộ dữ liệu rất thiên vị là gì?

Những phương pháp phân loại nào ngoài RF có thể xử lý vấn đề theo cách tốt nhất?

— IharS
nguồn

Xem thêm số liệu thống kê.stackexchange.com / q / 47871/232706

— Ben Reiniger

19

Max Kuhn trình bày rõ điều này trong Ch16 của Mô hình dự đoán ứng dụng .
Như đã đề cập trong luồng được liên kết, dữ liệu mất cân bằng về cơ bản là một vấn đề đào tạo nhạy cảm với chi phí. Do đó, bất kỳ phương pháp nhạy cảm chi phí nào cũng được áp dụng cho dữ liệu mất cân bằng.
Có một số lượng lớn các phương pháp như vậy. Không phải tất cả được thực hiện trong R: C50, các SVM có trọng số là các tùy chọn. Jous-boost. Tôi nghĩ rằng Rusboost chỉ có sẵn dưới dạng mã Matlab.
Tôi không sử dụng Weka, nhưng tin rằng nó có một số lượng lớn các phân loại nhạy cảm với chi phí.
Xử lý các bộ dữ liệu mất cân bằng: Một đánh giá : Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas '
Về vấn đề mất cân bằng giai cấp : Xinjian Guo, Yilong Yin, Dong Dong, Gongping Yang, Guangtong Zhou

— xe ngựa
nguồn

16

Nhấn mạnh lớp đa số thường là cách để đi trong những tình huống như vậy.

Nếu bạn nghĩ rằng bạn có quá ít trường hợp của lớp dương, bạn có thể thực hiện quá mức, ví dụ, ví dụ mẫu 5n với sự thay thế từ tập dữ liệu có kích thước n.

Hãy cẩn thận:

Một số phương thức có thể nhạy cảm với những thay đổi trong phân phối lớp, ví dụ đối với Naive Bayes - nó ảnh hưởng đến xác suất trước đó.
Quá khổ có thể dẫn đến quá mức

— Alexey Grigorev
nguồn

Hoặc có thể thử một số thuật toán phân cụm và sử dụng các trung tâm cụm?

— Leela Bohhu

Bạn có thể kiểm tra liên kết này để xem quá khổ và các phương pháp khác để đối phó với các bộ dữ liệu mất cân bằng.

— janpreet singh

11

Gradient boosting cũng là một lựa chọn tốt ở đây. Bạn có thể sử dụng trình phân loại tăng cường độ dốc trong sci-kit tìm hiểu chẳng hạn. Tăng cường độ dốc là một phương pháp nguyên tắc để đối phó với sự mất cân bằng của lớp bằng cách xây dựng các bộ huấn luyện kế tiếp dựa trên các ví dụ được phân loại không chính xác.

— cwharland
nguồn

1

Hiểu biết của tôi là việc tăng cường độ dốc chịu những hạn chế tương tự như RF khi xử lý dữ liệu mất cân bằng: sci2s.ugr.es/keel/pdf/alacticm/articulo/iêu

— charles

1

Tăng cường là một bước bổ sung mà bạn thực hiện trong việc xây dựng khu rừng trực tiếp giải quyết sự mất cân bằng. Bài viết mà bạn liên kết lưu ý điều này trong phần giới thiệu nêu rõ giúp ngay cả trong trường hợp không có sự mất cân bằng. Và bài báo đó kết luận thúc đẩy đáng kể. Vì vậy, không chắc chắn nơi tương đương giữa RF và tăng được hiển thị ở đó?

— cwharland

1

Ngoài các câu trả lời được đăng ở đây, nếu số lượng ví dụ tích cực quá ít so với các ví dụ tiêu cực, thì nó gần như là một vấn đề phát hiện bất thường trong đó các ví dụ tích cực là sự bất thường.

Bạn có toàn bộ các phương pháp để phát hiện các dị thường khác nhau, từ việc sử dụng phân phối gaussian đa biến để mô hình hóa tất cả các điểm và sau đó chọn các điểm cách trung bình 2 hoặc 3 stds.

Một thực phẩm khác cho suy nghĩ - Tôi đã thấy khá nhiều người lấy mẫu ngẫu nhiên các ví dụ tiêu cực với nhiều ví dụ để cả hai lớp đều giống nhau về số lượng. Điều đó hoàn toàn phụ thuộc vào vấn đề trong tay, liệu chúng ta có muốn chúng được cân bằng hay không.

— Ram
nguồn