Khi nào Đăng nhập / Exp Biến của bạn khi sử dụng Mô hình rừng ngẫu nhiên?


13

Tôi đang thực hiện hồi quy bằng cách sử dụng Rừng ngẫu nhiên để dự đoán giá dựa trên một số thuộc tính. Mã được viết bằng Python bằng Scikit-learn.

Làm thế nào để bạn quyết định xem bạn có nên chuyển đổi các biến của mình bằng cách sử dụng exp/ logtrước khi sử dụng nó để phù hợp với mô hình hồi quy không? Có cần thiết khi sử dụng một cách tiếp cận tập hợp như Rừng ngẫu nhiên không?



3
Tôi nghĩ rằng điều này hơi khác so với câu hỏi đó, do khía cạnh rừng / quần thể ngẫu nhiên, nhưng câu hỏi có lẽ có thể được điều chỉnh lại sau khi nhìn vào bài đăng khác.
Peter Flom - Tái lập Monica

@PeterFlom bạn có thể giúp tôi đặt lại câu hỏi không? Tôi không đủ thành thạo trong lĩnh vực này :)
Nyxynyx

Cách mà hầu hết mọi người sử dụng thuật ngữ "hòa tấu" RF chỉ là 1 đầu vào tiềm năng cho một nhóm.
Hack-R

Câu trả lời:


16

Cách Rừng ngẫu nhiên được xây dựng là bất biến đối với các phép biến đổi đơn điệu của các biến độc lập. Chia tách sẽ hoàn toàn tương tự. Nếu bạn chỉ nhắm đến sự chính xác, bạn sẽ không thấy bất kỳ cải thiện nào trong đó. Trên thực tế, vì Rừng ngẫu nhiên có thể tìm thấy các mối quan hệ phi tuyến tính phức tạp (Tại sao bạn gọi đây là hồi quy tuyến tính?) Và các tương tác biến đổi nhanh chóng, nếu bạn chuyển đổi các biến độc lập của mình, bạn có thể làm mịn thông tin cho phép thuật toán này thực hiện Điều này đúng.

Đôi khi Rừng ngẫu nhiên không được coi là hộp đen và được sử dụng để suy luận. Ví dụ: bạn có thể diễn giải các biện pháp quan trọng của biến mà nó cung cấp hoặc tính toán một số loại hiệu ứng cận biên của biến độc lập trên biến phụ thuộc của bạn. Điều này thường được hình dung như các ô phụ thuộc một phần. Tôi khá chắc chắn rằng điều cuối cùng này bị ảnh hưởng rất nhiều bởi quy mô của các biến, đây là một vấn đề khi cố gắng thu thập thông tin có tính mô tả hơn từ Rừng ngẫu nhiên. Trong trường hợp này, nó có thể giúp bạn chuyển đổi các biến của bạn (tiêu chuẩn hóa), điều này có thể làm cho các ô phụ thuộc một phần có thể so sánh được. Không hoàn toàn chắc chắn về điều này, sẽ phải suy nghĩ về nó.

Cách đây không lâu, tôi đã cố gắng dự đoán dữ liệu đếm bằng cách sử dụng Rừng ngẫu nhiên, hồi quy trên căn bậc hai và nhật ký tự nhiên của biến phụ thuộc đã giúp một chút, không nhiều và không đủ để tôi giữ mô hình.

Một số gói mà bạn có thể sử dụng rừng ngẫu nhiên để suy luận:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

Echoing @JEquihua, độ chính xác dự đoán Rừng ngẫu nhiên sẽ không được cải thiện.

Cũng lưu ý, nếu bạn giữ cả bộ dự đoán ban đầu và bộ dự đoán được chuyển đổi (như thường được thực hiện trong hồi quy tuyến tính), bạn có thể gây ra sự cố. Đó là bởi vì RF chọn ngẫu nhiên một tập hợp con các biến để phát triển mỗi cây và về cơ bản bạn đã đặt biến được chuyển đổi thành hai lần. Nếu đó là một yếu tố dự báo mạnh, nó sẽ được sử dụng và các khu rừng ngẫu nhiên của bạn sẽ không bị hủy hoại như chúng có thể, dẫn đến phương sai cao hơn.


1
Đưa cả một công cụ dự đoán biến đổi và chưa được chuyển đổi vào bất kỳ mô hình nào là một ý tưởng tồi tệ. Chúng hoàn toàn trùng khớp và chắc chắn sẽ gây rối với mô hình của bạn, cho dù đó là rừng ngẫu nhiên hay hồi quy tuyến tính.
mkt - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.