Random Forest có phải là một lựa chọn tốt để phân loại dữ liệu không cân bằng? [đóng cửa]


9

Mặc dù có sự giống nhau và các cách tiếp cận biến đổi dữ liệu ngày càng tăng khác, liệu rừng ngẫu nhiên "như một thuật toán" có thể được coi là một lựa chọn tốt cho phân loại dữ liệu không cân bằng?


Không . (Xin cụ thể hơn trong câu hỏi của bạn, vì nó đứng nó là quá rộng bạn cần phải làm rõ tình hình của bạn cũng như những gì bạn có nghĩa là bằng cách tuyên bố "như một thuật toán" -.? Như trái ngược với cái gì khác)
usεr11852

5
@ usεr11852 Tôi không nghĩ nó quá rộng - nó chỉ có một câu trả lời một từ.
Shadowtalker

Điều tôi muốn nói là thuật toán được so sánh với các công cụ phân loại khác như SVM, hồi quy logistic, .... RF có được coi là một lựa chọn tốt không?
mhdella

Tại sao không chỉnh sửa câu hỏi của bạn để hiển thị những so sánh bạn đang xem xét và tình huống bạn dự tính bằng phương pháp bạn đã chọn?
mdewey

@ssdecontrol: Tôi là tất cả cho câu trả lời ngắn gọn; Tôi hiếm khi tìm thấy câu trả lời một từ là rất giác ngộ mặc dù. Câu trả lời của riêng bạn là một bằng chứng về điều đó (vì nó không phải là một từ: D).
usεr11852

Câu trả lời:


9

Đó không phải là một lựa chọn tốt.

Rừng ngẫu nhiên được xây dựng trên cây quyết địnhcây quyết định rất nhạy cảm với sự mất cân bằng giai cấp . Mỗi cây được xây dựng trên một túi và mỗi túi là một mẫu ngẫu nhiên thống nhất từ ​​dữ liệu (có thay thế). Do đó, mỗi cây sẽ bị sai lệch theo cùng một hướng và độ lớn (trung bình) bởi sự mất cân bằng lớp.

Một số kỹ thuật để giảm hoặc giảm thiểu mất cân bằng lớp tồn tại, một số trong đó là chung và một số trong đó là đặc trưng cho các khu rừng ngẫu nhiên. Chủ đề đó đã được thảo luận rộng rãi cả ở đây và những nơi khác.

chỉnh sửa: Tôi sẽ thêm rằng tôi không nghĩ nó tệ hơn bất kỳ tùy chọn nào khác, ví dụ hồi quy logistic, mặc dù tôi không có bằng chứng nào cho nó


tăng kích thước của các mẫu bootstrap .. để có được cả lớp trong mỗi mẫu.
Arpit Sisodia

@ArpitSisodia vẫn sẽ dẫn đến các mẫu không cân bằng. Bạn sẽ phải sử dụng trọng số lấy mẫu để chồng lên lớp hiếm hơn trong mỗi mẫu bootstrap trước khi xây dựng cây.
Shadowtalker

Câu trả lời gây tranh cãi này là sai lệch trong khu rừng ngẫu nhiên đó là một lựa chọn tuyệt vời, đặc biệt là vì một RF có thể dễ dàng được xếp hạng. Hãy làm theo cách tốt nhất hữu ích để cung cấp một đề xuất phản biện khi nói không, nếu không thì nói không có hại hơn là có ích.
BơiBikeRun

3

Các lớp không cân bằng chỉ là một vấn đề nếu bạn cũng có sự mất cân đối chi phí phân loại. Nếu có các lớp thiểu số nhỏ và không tốn kém hơn để phân loại chúng thành một lớp đa số so với cách khác, thì điều hợp lý cần làm là cho phép phân loại sai các lớp thiểu số.

Vì vậy, giả sử bạn có sự mất cân bằng về lớp học và chi phí. Có nhiều cách để đối phó với điều này. Cuốn sách "Mô hình dự đoán ứng dụng" của Max Kuhn có một cái nhìn tổng quan tốt trong chương 16. Những biện pháp khắc phục đó bao gồm sử dụng mức cắt khác 0,5, phản ánh chi phí không bằng nhau. Điều này rất dễ thực hiện trong phân loại nhị phân miễn là phân loại của bạn đưa ra xác suất nhãn (cây và rừng làm điều này). Tôi chưa nhìn vào nó cho nhiều lớp. Bạn cũng có thể chồng lên lớp thiểu số để tăng thêm trọng lượng.


Tôi không nghĩ rằng điều này là chính xác. Nếu tôi có chi phí phân loại sai bằng nhau nhưng mô hình của tôi bị thiên vị so với dự đoán một lớp, tôi vẫn còn một mô hình thiên vị vào cuối ngày.
Shadowtalker

Nó sẽ không quan trọng mặc dù. Các trường hợp ung thư ít hơn nhiều so với bệnh nhân khỏe mạnh. Tuy nhiên, bạn cần dự đoán một cách đáng tin cậy các bệnh nhân ung thư vì thiếu một cái đắt hơn nhiều so với dự đoán quá nhiều. Nếu bạn có một bộ dữ liệu với 99,9% người khỏe mạnh và 0,1% trường hợp cảm lạnh thông thường, phân loại tốt nhất sẽ đơn giản bỏ qua những trường hợp cảm lạnh thông thường đó.
David Ernst
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.