Phân loại các phương pháp để đối phó với các lớp mất cân bằng


8

Cách tốt nhất để phân loại các phương pháp đã được phát triển để đối phó với vấn đề mất cân bằng là gì?

Bài viết này phân loại chúng thành:

  1. Tiền xử lý: bao gồm các phương pháp oversampling, underersampling và hybrid,
  2. Học tập nhạy cảm với chi phí: bao gồm các phương pháp trực tiếp và siêu học mà sau này phân chia thành ngưỡng và lấy mẫu,
  3. Kỹ thuật tập hợp: bao gồm các nhóm nhạc nhạy cảm với chi phí và tiền xử lý dữ liệu kết hợp với học tập hòa đồng.

Các thứ hai phân loại:

  1. Xử lý trước dữ liệu: bao gồm thay đổi phân phối và tính trọng số của không gian dữ liệu. Học tập một lớp được coi là thay đổi phân phối.
  2. Phương pháp học tập đặc biệt
  3. Dự đoán Xử lý hậu kỳ: bao gồm phương pháp ngưỡng và xử lý hậu nhạy cảm với chi phí
  4. Phương pháp lai:

Bài viết thứ ba :

  1. Phương pháp mức dữ liệu
  2. Phương pháp cấp thuật toán
  3. Phương pháp lai

Phân loại cuối cùng cũng coi điều chỉnh đầu ra là một cách tiếp cận độc lập.

Cảm ơn trước.


4
Câu trả lời rất ngắn gọn: tất cả chúng đều tốt nhất và tất cả chúng đều tệ nhất! Phân loại và khai thác dữ liệu nói chung là rất nhạy cảm bối cảnh. Không có một kích thước phù hợp với tất cả các giải pháp trong lĩnh vực này. Nhân tiện, cách tiếp cận tốt nhất, theo các thuật ngữ rất chung chung, thường là sự kết hợp của các quyết định tốt nhất ở các cấp độ khác nhau từ trích xuất tính năng, cho đến sơ đồ đánh giá.
mok

@mok Cảm ơn. Bạn có thể vui lòng cho tôi biết trọng số lớp trong phân loại của sklearn, ví dụ, hồi quy logistic được phân loại vào loại nào?
ebrahimi

@ebrahimi, nó sẽ rơi vào cấp thuật toán vì chỉ các trọng số được điều chỉnh theo từ điển đã thông qua hoặc được tính toán (suy ra) theo các giá trị của y (lớp) và dữ liệu vẫn chưa được xử lý.
Sanjay Krishna

@SanjayKrishna Cảm ơn rất nhiều. Trong trường hợp phân loại đầu tiên, nó rơi vào việc học nhạy cảm với chi phí, phải không? Ngoài ra, trong trường hợp phân loại thứ hai, nó sẽ được phân loại vào loại thứ ba, tức là xử lý hậu nhạy cảm với chi phí. có thật không Câu trả lời thứ hai cho vấn đề này: stackoverflow.com/questions/32492550/ cũng rất hữu ích.
ebrahimi

Câu trả lời:


5

Cách tôi nhìn thấy nó cả ba phân loại đồng ý trong nhiều điều. Ví dụ, cả ba đều có một danh mục cho các bước xử lý trước.

Tôi có xu hướng chủ yếu đồng ý về phân loại thứ ba vì nó chung chung hơn và bao gồm nhiều thứ hơn.

  • Các dữ liệu cấp loại bao gồm bất kỳ bước tiền xử lý đối phó với sự mất cân bằng lớp (ví dụ trên / dưới lấy mẫu).
  • Các thuật toán cấp có thể được coi là bao gồm các hạng mục thứ hai của hai bài báo đầu tiên. Bất kỳ thay đổi nào đối với thuật toán liên quan đến mất cân bằng lớp sẽ xuất hiện ở đây (ví dụ: trọng số lớp).
  • Cuối cùng, một thể loại lai để kết hợp cả hai.

Điều duy nhất còn thiếu trong hai bài viết đầu tiên là các bước xử lý hậu kỳ, thành thật mà nói, không được sử dụng trong thực tế thường xuyên như các bài viết khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.