RandomForestClassifier so với ExtraTreesClassifier trong scikit learning


94

Bất cứ ai có thể giải thích sự khác biệt giữa RandomForestClassifier và ExtraTreesClassifier trong scikit học. Tôi đã dành một chút thời gian để đọc bài báo:

P. Geurts, D. Ernst., Và L. Wehenkel, “Cây cực kỳ ngẫu nhiên”, Machine Learning, 63 (1), 3-42, 2006

Có vẻ như đây là sự khác biệt đối với ET:

1) Khi chọn các biến tại một lần tách, các mẫu được lấy từ toàn bộ tập huấn luyện thay vì một mẫu bootstrap của tập huấn luyện.

2) Các phần tách được chọn hoàn toàn ngẫu nhiên từ phạm vi giá trị trong mẫu tại mỗi lần tách.

Kết quả từ hai việc này là nhiều "lá" hơn.


6
Lý do tôi rất quan tâm đến công cụ ngoại phân loại là tôi đang nhận được kết quả tốt hơn nhiều với ET về một vấn đề cụ thể. Vectơ đặc trưng của tôi lớn> 200 biến và các biến rất ồn. Bộ phân loại RDF tiêu chuẩn nhận được kết quả tệ hại nhưng ET nhận được điểm F1> 90%. Các lớp không cân bằng với tương đối ít mẫu lớp tích cực và nhiều mẫu tiêu cực.
denson

Xem thêm câu trả lời gần đây hơn này: stats.stackexchange.com/questions/175523/…
Archie

Câu trả lời:


56

Có, cả hai kết luận đều đúng, mặc dù việc triển khai Random Forest trong scikit-learning giúp bạn có thể bật hoặc tắt lấy mẫu lại bootstrap.

Trong thực tế, RF thường nhỏ gọn hơn ET. ETs thường rẻ hơn để đào tạo theo quan điểm tính toán nhưng có thể phát triển lớn hơn nhiều. ETs đôi khi có thể khái quát hóa tốt hơn RF nhưng thật khó đoán khi đó là trường hợp mà không thử cả hai lần đầu tiên (và điều chỉnh n_estimators, max_featuresmin_samples_splitbằng cách tìm kiếm lưới xác thực chéo).


21

Bộ phân loại ExtraTrees luôn kiểm tra các phần tách ngẫu nhiên trên một phần các tính năng (trái ngược với RandomForest, công cụ này kiểm tra tất cả các phần tách có thể có trên một phần các tính năng)


13
Tôi thích thú mà bình luận này thật sự là word-cho-word câu trả lời cho một câu hỏi đố Coursera
Bob

Đúng vậy @Bob. Tôi thấy câu trả lời này rất hữu ích, đó là lý do tại sao tôi đăng ở đây, nó giúp ích cho những người khác trong việc hiểu sự khác biệt giữa rừng ngoài cây và rừng ngẫu nhiên.
Muhammad Umar Amanat

3
cũng đến từ cùng một khóa học. và câu trả lời này rất hữu ích!
killezio

vâng @ skeller88 đây là khóa học tuyệt vời. Bạn cũng nên xem khóa học nàyra.org/learn/competitive
Muhammad Umar Amanat

0

Sự khác biệt chính giữa rừng ngẫu nhiên và cây phụ (thường được gọi là rừng cực kỳ ngẫu nhiên) nằm ở chỗ, thay vì tính toán kết hợp phân chia / đặc điểm tối ưu cục bộ (đối với rừng ngẫu nhiên), đối với mỗi đặc điểm đang được xem xét, một giá trị ngẫu nhiên được chọn để tách (đối với những cây thừa). Đây là một nguồn tốt để biết thêm về sự khác biệt của chúng chi tiết hơn Rừng ngẫu nhiên và cây phụ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.