Rừng ngẫu nhiên: nếu tôi biết một biến là quan trọng


12

Sự hiểu biết của tôi là rừng ngẫu nhiên chọn các biến mtry ngẫu nhiên để xây dựng mỗi cây quyết định. Vì vậy, nếu mtry = ncol / 3 thì mỗi biến sẽ được sử dụng trung bình ở 1/3 số cây. Và 2/3 số cây sẽ không sử dụng chúng.

Nhưng điều gì sẽ xảy ra nếu tôi biết rằng một biến duy nhất có lẽ rất quan trọng, liệu có tốt để tăng xác suất biến này được chọn trong mỗi cây không? Có khả thi với gói RandomForest trong R không?

Câu trả lời:


6

Lưu ý rằng mtrylà số lượng biến được lấy mẫu ngẫu nhiên như các ứng cử viên ở mỗi lần phân chia. Và từ ứng cử viên này, tốt nhất là chọn để thực hiện chia tách. Do đó, tỷ lệ bạn đã đề cập không hoàn toàn hài lòng. Các biến quan trọng hơn xuất hiện thường xuyên hơn và ít quan trọng hơn - ít thường xuyên hơn. Vì vậy, nếu biến thực sự rất quan trọng, thì có khả năng lớn là nó sẽ được chọn trong cây và bạn không cần chỉnh thủ công. Nhưng đôi khi (hiếm khi) cần phải có sự hiện diện của một số biến (bất kể tầm quan trọng có thể có của nó) trong hồi quy. Theo tôi biết thì rừng R gói ngẫu nhiên không hỗ trợ khả năng như vậy. Nhưng nếu biến này không có giao thoa với các biến khác, bạn có thể thực hiện hồi quy thông thường với biến này là một thuật ngữ duy nhất và sau đó chạy hồi quy rừng ngẫu nhiên trên phần dư của hồi quy thông thường này. Nếu bạn vẫn muốn sửa khả năng chọn các biến được chỉ định trước, thì sửa đổi mã nguồn với phần biên dịch tiếp theo là tùy chọn của bạn.


2
Nếu bạn cần n cây để có được xấp xỉ khá cho hàm mục tiêu của mình, nhưng bạn đang tìm kiếm tầm quan trọng khác nhau, thì bạn có thể đặt một cái gì đó như cây 5 * n hoặc 10 * n trong rừng. Chúng sẽ hội tụ nhiều hơn, không phải là "lỗi phù hợp" mà là về sự thay đổi về tầm quan trọng khác nhau.
EngrStudent - Phục hồi Monica

5

Kể từ tháng 6 năm 2015, một thuật toán RF đầy hứa hẹn mới trên R-CRAN có tên là 'ranger' có tính năng này. Nó được điều chỉnh với, split.select.weights : "Vectơ số có trọng số từ 0 đến 1, đại diện cho xác suất để chọn các biến để phân tách."

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.