Phân loại GBM có bị kích thước lớp không cân bằng không?


16

Tôi đang giải quyết một vấn đề phân loại nhị phân có giám sát. Tôi muốn sử dụng gói GBM để phân loại các cá nhân là không bị nhiễm / bị nhiễm bệnh. Tôi có 15 lần không bị nhiễm bệnh hơn những người bị nhiễm bệnh.

Tôi đã tự hỏi nếu các mô hình GBM bị trong trường hợp kích thước lớp không cân bằng? Tôi đã không tìm thấy bất kỳ tài liệu tham khảo trả lời câu hỏi này.

Tôi đã cố gắng điều chỉnh trọng lượng bằng cách chỉ định trọng lượng 1 cho những người không bị nhiễm bệnh và cân nặng 15 cho người bị nhiễm bệnh, nhưng tôi đã thu được kết quả kém.


1
(lưu ý bên cạnh) Sẽ rất hữu ích nếu bạn cung cấp GBM là viết tắt của gì và liên kết đến gói.
Ghi nhớ

1
Bạn đang sử dụng chức năng mất nào cho mô hình tăng cường độ dốc? Khi nói đến các lớp không cân bằng, tôi đã thấy hiệu suất kém khi tôi sử dụng có nghĩa là lỗi tuyệt đối vì nó dường như thiên về lớp phổ biến nhất. Khi tôi sử dụng lỗi bình phương, hiệu suất được cải thiện đáng kể
Ryan Zotti

Chỉ để tham khảo trong tương lai, tôi thấy hàm mất mặc định được sử dụng bởi mất logarit (độ lệch chéo) cũng khá hữu ích. (nó phạt rất nhiều đối với các trường hợp sai trong thang logarit âm)
Lily Long

Câu trả lời:


4

Theo kinh nghiệm của tôi, GBM thực sự bị các kích cỡ lớp không cân bằng. Tôi đã thành công khi sử dụng lấy mẫu SMOTE, tạo ra dữ liệu tổng hợp trong khi vượt quá lớp thiểu số. Bạn có thể tìm thấy nó trong DMwRgói.


Tôi hơi bối rối. GBM không phải là một cách tiếp cận để xử lý sự mất cân bằng dữ liệu? Hãy kiểm tra này analyticsvidhya.com/blog/2017/03/...
Lamothy

5

Tôi nghĩ rằng dữ liệu của bạn tương tự như dữ liệu Secom mà tôi đã làm việc trong quá khứ và gặp rất nhiều khó khăn. Sau đây là những gì tôi đã cố gắng:

  • Kỹ thuật lấy mẫu khác nhau
  • Các phân loại khác nhau như Random Forest, ANN, GBM, phương thức tập hợp, v.v.

Tôi cũng đã thử SVM 1 lớp , cho kết quả tốt hơn so với các loại khác như adaboost, Random Forest. Bạn có thể thử điều đó là tốt.

Và tôi có thể thấy bạn đã hỏi câu hỏi này 1 năm trước vì vậy nếu bạn tìm thấy cách tốt nhất thì vui lòng đăng nó ở đây để tôi có thể nhận trợ giúp từ nó để có độ chính xác cao hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.