Tăng cường độ dốc có phù hợp với dữ liệu với tỷ lệ sự kiện thấp như 1% không?


14

Tôi đang thử tăng cường độ dốc trên tập dữ liệu với tỷ lệ sự kiện khoảng 1% bằng cách sử dụng Công cụ khai thác doanh nghiệp, nhưng không thể tạo ra bất kỳ đầu ra nào. Câu hỏi của tôi là, vì nó là một cách tiếp cận dựa trên cây quyết định, liệu có đúng không khi sử dụng tăng cường độ dốc với sự kiện thấp như vậy?


3
Bạn đang đối phó với dữ liệu mất cân bằng. Tăng cường thực sự là một cách tốt để đối phó với nó. Để biết chi tiết, xem số liệu thống kê.stackexchange.com/questions / 157940
/ từ

Nhưng đối với tôi, hồi quy logistic đang cho kết quả tốt hơn so với tăng ngẫu nhiên hoặc tăng cường độ dốc. Tôi muốn cải thiện hiệu suất của mô hình của mình, bằng cách thử các cây được tăng cường.
dùng2542275

Tăng cường dựa trên phân loại yếu. Về mặt lý thuyết, bất kỳ phân loại yếu nào tốt hơn một chút so với ngẫu nhiên sẽ làm. Trong thực tế, các thuật toán khác nhau phù hợp hơn với một số bộ dữ liệu nên phân loại yếu bạn chọn là quan trọng. Bạn có thể chỉ định thêm về các thuật toán bạn đã sử dụng, kết quả của chúng và tập dữ liệu không?
DaL

Đồng ý. Giới thiệu về bộ dữ liệu: Cỡ mẫu> 4m, tỷ lệ sự kiện = 1,2%. Số lượng các yếu tố dự đoán có giá trị p đáng kể <0,05 là 150. Hồi quy logistic với hầu hết các biến có ý nghĩa đã tăng 3 ở mức 20% dân số. Mạng lưới thần kinh đã nâng khoảng 2,8. Tăng cường độ dốc không tạo ra bất kỳ đầu ra nào, cho đến khi tôi sử dụng lấy mẫu phân tầng với các trọng số trước nghịch đảo. Nhưng hiệu suất kém.
dùng2542275

Vì tập dữ liệu của bạn khá lớn, bạn nên có đủ các mẫu của lớp thiểu số của mình, vì vậy vấn đề là do sự mất cân đối tương đối. Bạn có khá nhiều tính năng nhưng không quá nhiều, nhưng thực sự cây quyết định ít phù hợp với các bộ dữ liệu như vậy. Tôi đề nghị rằng bạn sẽ tạo một bộ dữ liệu cân bằng và xem các thuật toán của bạn hoạt động tốt như thế nào trên nó. Hơn bạn sẽ có thể áp dụng thuật toán trên tập dữ liệu gốc theo cách tôi đã mô tả trong nhận xét đầu tiên.
DaL

Câu trả lời:


7

(Để trả lời ngắn gọn về điều này :)

Bạn có thể sử dụng thuật toán tăng cường độ dốc khi xử lý bộ dữ liệu không cân bằng. Khi làm việc với một bộ dữ liệu mất cân bằng mạnh, nó liên quan nhiều hơn đến câu hỏi về sự phù hợp của số liệu được sử dụng. Chúng ta có khả năng nên tránh các số liệu, như Độ chính xác hoặc Thu hồi, dựa trên các ngưỡng tùy ý và chọn tham số cho các số liệu, như chấm điểm AUCPR hoặc Brier, đưa ra một bức tranh chính xác hơn - xem chủ đề CV.SE xuất sắc về: Tại sao độ chính xác không phải là biện pháp tốt nhất để đánh giá các mô hình phân loại? để biết thêm). Tương tự như vậy, chúng tôi có khả năng có thể sử dụng một cách tiếp cận nhạy cảm với chi phí bằng cách chỉ định các chi phí phân loại sai khác nhau (ví dụ: xem Masnadi-Shirazi & Vasconcelos (2011) Tăng cường nhạy cảm với chi phíđể có cái nhìn tổng quát và đề xuất thay đổi đối với các thuật toán tăng cường đã biết hoặc cho một ứng dụng thú vị cụ thể với cách tiếp cận đơn giản hơn, hãy kiểm tra báo cáo thách thức Higgs Boson cho thuật toán XGBoost; Chen & He (2015) Higgs Boson Discovery với Boosted Plants cung cấp thêm chi tiết).

Cũng cần lưu ý rằng nếu chúng tôi sử dụng trình phân loại xác suất (như GBM), chúng tôi có thể / nên chủ động xem xét hiệu chỉnh các xác suất được trả về (ví dụ: xem Zadrozny & Elkan (2002) Chuyển đổi điểm số phân loại thành ước tính xác suất đa giác chính xác hoặc Kull et al. ( 2017) Hiệu chuẩn Beta: một cải tiến có cơ sở và được triển khai dễ dàng về hiệu chuẩn logistic cho các phân loại nhị phân ) để tăng khả năng thực hiện của học viên của chúng tôi. Đặc biệt là khi làm việc với dữ liệu mất cân bằng, nắm bắt đầy đủ các thay đổi xu hướng có thể có nhiều thông tin hơn là chỉ đơn giản là ghi nhãn dữ liệu. Ở mức độ đó, một số người có thể lập luận rằng các phương pháp tiếp cận nhạy cảm với chi phí cuối cùng không có lợi (ví dụ, xem Nikolaou và cộng sự (2016)Các thuật toán thúc đẩy nhạy cảm với chi phí: Chúng ta có thực sự cần chúng không? ). Tuy nhiên, để nhắc lại điểm ban đầu, các thuật toán tăng cường vốn không phải là xấu đối với dữ liệu mất cân bằng và trong một số trường hợp nhất định, chúng có thể cung cấp một tùy chọn rất cạnh tranh.


Tôi tin rằng điểm Brier tương đương với thước đo Độ chính xác nên sẽ có những hạn chế tương tự như Độ chính xác khi đánh giá các mô hình sự kiện hiếm.
RobertF

Điểm Brier không tương đương với Độ chính xác. Xin lưu ý rằng chúng tôi sử dụng xác suất dự đoán để tính điểm Brier trong khi đối với tính toán Độ chính xác, chúng tôi sử dụng nhãn dựa trên ngưỡng cứng của xác suất dự đoán.
usεr11852

Cảm ơn đã làm rõ - sử dụng xác suất ước tính thay vì 0/1 cho lớp dự đoán có ý nghĩa hơn.
RobertF

Mát mẻ. Tôi vui vì chúng tôi đã sắp xếp nó ra! :)
usεr11852
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.