Sự khác biệt giữa rừng ngẫu nhiên và cây cực kỳ ngẫu nhiên


40

Tôi hiểu rằng Rừng ngẫu nhiên và Cây ngẫu nhiên cực kỳ khác nhau theo nghĩa là sự phân chia của cây trong Rừng ngẫu nhiên là xác định trong khi chúng là ngẫu nhiên trong trường hợp Cây ngẫu nhiên cực kỳ (chính xác hơn, lần phân chia tiếp theo là sự phân chia tốt nhất trong số các phân chia thống nhất ngẫu nhiên trong các biến được chọn cho cây hiện tại). Nhưng tôi không hiểu đầy đủ về tác động của sự chia tách khác nhau này trong các tình huống khác nhau.

  • Làm thế nào để họ so sánh về mặt thiên vị / phương sai?
  • Làm thế nào để họ so sánh với sự hiện diện của các biến không liên quan?
  • Làm thế nào để họ so sánh với sự hiện diện của các biến tương quan?

2
(a) ERT đôi khi có thể bị sai lệch nhiều hơn do sự phân chia ít tối ưu hơn / ERT đôi khi sẽ làm giảm phương sai do sự phân rã của cây; (b) Tôi đoán giống nhau, không chắc chắn; (c) Tôi đoán giống nhau, không chắc chắn. Bổ sung: Tôi sẽ không gọi việc phân tách RF xác định do lấy mẫu biến ngẫu nhiên và các cây tất nhiên không phải do bootstrapping.
Soren Havelund Welling

uniform split
octavian 17/12/17

Câu trả lời:


28

Các ngoại khóa (ngẫu nhiên) -Trees (ET) bài viết có chứa một phân tích bias-sai. Trên trang 16, bạn có thể thấy một so sánh với nhiều phương pháp bao gồm RF trên sáu bài kiểm tra (phân loại cây và ba hồi quy).

Cả hai phương pháp đều giống nhau, với ET tệ hơn một chút khi có nhiều tính năng nhiễu (trong các tập dữ liệu chiều cao).

Điều đó nói rằng, miễn là lựa chọn tính năng (có lẽ là thủ công) gần tối ưu, hiệu suất là như nhau, tuy nhiên, ET có thể được tính toán nhanh hơn.

Từ chính bài báo:

Việc phân tích thuật toán và xác định giá trị tối ưu của K trên một số biến thể của bài kiểm tra đã chỉ ra rằng giá trị về nguyên tắc phụ thuộc vào các đặc trưng của vấn đề, đặc biệt là tỷ lệ của các thuộc tính không liên quan . [...] Phân tích sai lệch / phương sai đã chỉ ra rằng Extra-Plants hoạt động bằng cách giảm phương sai trong khi đồng thời tăng độ lệch . [...] Khi ngẫu nhiên được tăng lên trên mức tối ưu, phương sai giảm nhẹ trong khi độ lệch tăng thường đáng kể.

Không có viên đạn bạc như mọi khi.


Pierre Geurts, Damien Ernst, Louis Wehenke. "Cây cực kỳ ngẫu nhiên"


3
Bất kỳ tài liệu tham khảo nào (theo kinh nghiệm hoặc lý thuyết) liên quan đến ET tệ hơn một chút khi có nhiều tính năng ồn ào? Hay điều này dựa trên kinh nghiệm?
ramhiser

1
Theo kinh nghiệm của tôi thì hoàn toàn ngược lại: Extra-Plants làm tốt hơn với nhiều tính năng ồn ào. Với sự cảnh báo rằng bạn phải có một khu rừng rộng lớn (nhiều công cụ ước tính, n_estimators trong sklearn) và điều chỉnh số lượng các tính năng được xem xét ở mỗi lần phân tách (max_features trong sklearn) để hoạt động này. Một cây bổ sung đơn lẻ sẽ phù hợp hơn nhiều so với một cây rừng ngẫu nhiên đơn lẻ, nhưng nếu bạn có nhiều cây bổ sung, chúng sẽ có xu hướng phù hợp hơn theo những cách khác nhau và không quá phù hợp. Tôi thường nhận được sự cải thiện đáng kể lên tới 3000 người ước tính.
denson

Như @ramhiser đã chỉ ra, ET dường như giữ hiệu suất cao hơn khi có các tính năng ồn ào. Bạn có thể thêm một số tài liệu tham khảo cho câu trả lời của bạn?
Goncalo Peres hỗ trợ Monica

3

Câu trả lời là nó phụ thuộc. Tôi đề nghị bạn thử cả rừng ngẫu nhiên và cây thừa về vấn đề của bạn. Hãy thử rừng lớn (1000 - 3000 cây / công cụ ước tính, n_estimators trong sklearn) và điều chỉnh số lượng tính năng được xem xét ở mỗi lần phân tách (max_features trong sklearn) cũng như các mẫu tối thiểu trên mỗi lần phân tách (min_samples_split trong sklearn) và độ sâu của cây tối đa (min_samples_split trong sklearn) max_depth trong sklearn). Điều đó nói rằng, bạn nên nhớ rằng điều chỉnh quá mức có thể là một hình thức quá mức.

Đây là hai vấn đề tôi đã làm việc cá nhân trong đó cây thừa tỏ ra hữu ích với dữ liệu rất ồn ào:

Rừng quyết định phân loại máy học của các bộ tính năng đáy biển lớn, ồn ào

Một dự đoán rối loạn protein phân phối hiệu quả với các mẫu được dán


2

Cảm ơn bạn rất nhiều vì câu trả lời! Khi tôi vẫn còn thắc mắc, tôi đã thực hiện một số mô phỏng số để có cái nhìn sâu sắc hơn về hành vi của hai phương pháp này.

  • Cây thêm dường như giữ hiệu suất cao hơn khi có các tính năng ồn ào.

Hình dưới đây cho thấy hiệu suất (được đánh giá với xác nhận chéo) khi các cột ngẫu nhiên không liên quan đến mục tiêu được thêm vào tập dữ liệu. Mục tiêu chỉ là sự kết hợp tuyến tính của ba cột đầu tiên. rừng ngẫu nhiên và cây thừa với sự hiện diện của các biến không liên quan

  • Khi tất cả các biến có liên quan, cả hai phương thức dường như đạt được cùng một hiệu suất,

  • Cây thừa dường như nhanh hơn ba lần so với rừng ngẫu nhiên (ít nhất là trong thực hiện tìm hiểu scikit)

Nguồn

Liên kết đến toàn bộ bài viết: rừng ngẫu nhiên vs cây thừa .


Từ bài viết được liên kết của bạn: "Màu xanh được trình bày kết quả từ rừng ngẫu nhiên và màu đỏ cho các cây thừa."
tomsv
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.