Cách bao gồm một thuật ngữ tương tác trong mô hình rừng ngẫu nhiên


9

Tôi đang sử dụng hàm randomForesttrong randomForestgói R để thực hiện hồi quy. Tuy nhiên, khi tôi đang cố gắng đưa một thuật ngữ tương tác vào các mã sau:

library(MASS)
library(randomForest)
Boston_f <- within(Boston, factor(rad))
mdl <- randomForest(lstat ~ rad * . , data = Boston_f)

Kết quả mdl$termkhông bao gồm tương tác, nhưng nếu tôi nhìn trộm vào những cái cây mdlđang sử dụng,

getTree(mdl, 1, T)

Tôi không thể tìm thấy bất kỳ biến phân chia bằng cách sử dụng thuật ngữ tương tác.

Có ai biết làm thế nào để bao gồm thuật ngữ tương tác bằng cách sử dụng randomForesthoặc chức năng khác?


1
Mặc dù câu hỏi này là hỏi về mã R, tôi tin rằng nó được thúc đẩy bởi sự hiểu lầm về thống kê / ML. Khi được giải quyết, các khía cạnh cụ thể của mã R sẽ được hiển thị. Như vậy, tôi nghĩ rằng điều này nên mở.
gung - Phục hồi Monica

Các câu hỏi chỉ về cách phần mềm hoạt động không đúng chủ đề ở đây, nhưng bạn có thể có một câu hỏi thống kê thực sự được chôn ở đây. Bạn có thể muốn chỉnh sửa câu hỏi của mình để làm rõ vấn đề thống kê cơ bản. Bạn có thể thấy rằng khi bạn hiểu các khái niệm thống kê liên quan, các yếu tố dành riêng cho phần mềm là hiển nhiên hoặc ít nhất là dễ dàng nhận được từ tài liệu.
gung - Phục hồi Monica

Câu trả lời:


12

Các mô hình dựa trên cây xem xét các biến liên tục, điều này giúp chúng thuận tiện cho việc xem xét các tương tác mà không chỉ định chúng. Các tương tác hữu ích cho dự đoán sẽ dễ dàng được chọn với một khu rừng đủ lớn, do đó không cần thực sự bao gồm một thuật ngữ tương tác rõ ràng.

Nếu bạn tin rằng tương tác là quan trọng, bạn có thể tự tạo thuật ngữ tương tác (ví dụ: xác định hàm của bạn formulatrong model.framehàm, sẽ tạo các cột mới cho các thuật ngữ tương tác của bạn). Tuy nhiên, trong trường hợp của bạn, điều này sẽ tăng gần gấp đôi số lượng biến, vì bạn đang tạo ra các tương tác giữa radvà mọi tính năng khác, vì vậy có lẽ nó không được khuyến khích.

Xem thêm Bao gồm các thuật ngữ tương tác trong Rừng ngẫu nhiên thể hiện khả năng vốn có của Rừng ngẫu nhiên để phát hiện các biến tương tác so với các phương pháp tuyến tính.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.