Tôi có dữ liệu với một vài nghìn tính năng và tôi muốn thực hiện lựa chọn tính năng đệ quy (RFE) để loại bỏ các tính năng không chính xác. Tôi làm điều này với caret và RFE. Tuy nhiên, tôi bắt đầu suy nghĩ, nếu tôi muốn có được hồi quy phù hợp nhất (ví dụ rừng ngẫu nhiên), khi nào tôi nên thực hiện điều chỉnh tham số ( mtry
cho RF)? Đó là, như tôi hiểu caret đào tạo RF liên tục trên các tập hợp tính năng khác nhau với một mtry cố định. Tôi cho rằng tối ưu mtry
sẽ được tìm thấy sau khi lựa chọn tính năng kết thúc, nhưng liệu mtry
giá trị mà caret sử dụng có ảnh hưởng đến tập hợp con các tính năng được chọn không? Sử dụng caret với mức thấp mtry
là nhanh hơn nhiều, tất nhiên.
Hy vọng ai đó có thể giải thích điều này với tôi.