Hiệu suất tốt hơn khi sử dụng Random Forest one-Vs-All so với Random Forest?


11

Tôi đang làm việc với một vấn đề đa kính với 9 nhãn có thể, trong đó tôi có một bộ dữ liệu bao gồm ~ 50.000 ví dụ và ~ 200 tính năng mỗi nhãn. Mỗi ví dụ chỉ có thể thuộc về một lớp. Dữ liệu khá cân bằng giữa các nhãn khác nhau.

Với sự mạnh mẽ và khả năng mở rộng của nó, tôi quyết định sử dụng Rừng ngẫu nhiên (với một nhóm gồm 1000 cây) làm phương pháp học tập. Để đánh giá độ chính xác hiệu năng của mô hình được cung cấp cho bộ dữ liệu này, tôi đã sử dụng xác thực chéo stratified5Fold (Tôi đang sử dụng scikit-learn 0.18).

Do Random Forest vốn có thể xử lý các bộ dữ liệu đa kính, tôi đã sử dụng nó trực tiếp trên tập dữ liệu đã cho và thu được độ chính xác 79,5 0,3. Tôi cũng muốn biết những tính năng có tầm quan trọng hơn, một cái gì đó có thể dễ dàng chiết xuất từ các thuộc tính feature_importances_ trong RandomForestClassifier của scikit. Tuy nhiên, do bộ dữ liệu được cân bằng tốt và, như mong đợi, có gần 200 số tính năng trong số 200 để đóng góp cho các lớp khác nhau, tôi không thể tách biệt các tính năng nào đóng góp nhiều nhất cho mỗi lớp.±

Do đó, tôi đã áp dụng chiến lược một đối một bằng cách sử dụng cùng một thiết lập Rừng ngẫu nhiên (bằng cách nhạy cảm với chi phí, có tính đến sự mất cân đối của dữ liệu khi sử dụng chiến lược oneVsAll), cho phép tôi xem cho từng lớp so với phần còn lại mà các tính năng quan trọng hơn. Kết quả mà tôi thu được về điều này là hợp lý. Hơn nữa, khi nhìn vào hiệu suất của mô hình sử dụng chiến lược này, tôi đã nhận được độ chính xác 88,7 0,2, điều làm tôi ngạc nhiên khi tôi đang mong đợi Rừng ngẫu nhiên đa sắc sẽ phân loại tốt hơn với tính chất đa giác của nó.±

Tôi có đúng về điều này? Sự khác biệt về độ chính xác như vậy có thể hợp lý không? Hơn nữa, chiến lược trên có được chấp nhận hay không và công bằng cho rằng Random Forest tự nó có thể giải quyết các vấn đề đa kính mà không có bất kỳ "hack" nào như chiến lược oneVsAll?


Làm thế nào để bạn xác định chính xác chính xác? Có thể so sánh trong cả hai trường hợp?
amanita kiki

Do thiết lập thử nghiệm của bạn, bạn có khoảng tin cậy rất lớn xung quanh hai biện pháp đó. Ngay bây giờ, không thể nói nếu các màn trình diễn là khác nhau.
David Ernst

Câu trả lời:


4

Tôi đã có chính xác câu hỏi giống như bạn, và hơi buồn khi biết rằng không có câu trả lời nào được đăng trên chủ đề của bạn ...

Điều đó nói rằng, tôi đã tìm thấy bài báo này: Kỹ thuật tạo nhị phân một lần trong bối cảnh rừng ngẫu nhiên ( https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2015-5.pdf ) được xuất bản trong 2015.

Các tác giả đang thể hiện hiệu suất phân loại tốt hơn với các phân loại Rừng ngẫu nhiên một lần so với nghỉ so với các phân loại Rừng ngẫu nhiên đa tiêu chuẩn.

Các tác giả không đưa ra nhiều manh mối về lý do tại sao nó hoạt động tốt như vậy, ngoại trừ việc các cây được tạo ra trong bối cảnh một so với phần còn lại đơn giản hơn.

Tôi tự hỏi nếu bạn tìm thấy một số câu trả lời cho mình kể từ khi bạn đăng câu hỏi của bạn?


2

Vào cuối ngày, lớp mô hình mà bạn chọn xác định hình dạng của ranh giới quyết định của bạn - nếu bạn sử dụng RandomForests làm đa giác hoặc như một phân loại đa lớp một so với tất cả các ranh giới sẽ bị ràng buộc như nhau, với sự khác biệt duy nhất là dữ liệu bạn sử dụng để phù hợp với mô hình của bạn. Tùy thuộc vào mức độ các mô hình của bạn phù hợp với dữ liệu của bạn và mức độ nhạy cảm của mô hình đối với các vấn đề mất cân bằng dữ liệu, tôi thực sự không thấy một lý do tiên quyết nào đó rằng đa giác sẽ tốt hơn so với tất cả. Họ chỉ cung cấp cho bạn những thứ khác nhau - một cho bạn một quyết định cho mỗi cặp lớp, với chi phí cho nhiều mô hình hơn để đào tạo, và một cho bạn quyết định lớp ngay lập tức. Điều này hoàn toàn hợp lý đối với tôi, đặc biệt khi xem xét rằng RandomForests không giải quyết được chức năng mất lồi, rằng bạn sẽ nhận được kết quả bạn đã làm.

Nếu bạn đặc biệt quan tâm đến việc tìm kiếm các tính năng phù hợp với trình phân loại của mình, tôi sẽ đề xuất hồi quy logistic với hình phạt mất L1, vì tính thưa thớt sẽ cung cấp cho bạn một tập hợp nhỏ các tính năng có thể dự đoán cho từng cặp lớp mà bạn có.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.