Tất cả mọi thứ là trong tiêu đề, nó có ý nghĩa để sử dụng lựa chọn tính năng trước khi sử dụng rừng ngẫu nhiên?
Tất cả mọi thứ là trong tiêu đề, nó có ý nghĩa để sử dụng lựa chọn tính năng trước khi sử dụng rừng ngẫu nhiên?
Câu trả lời:
Có nó và nó khá phổ biến. Nếu bạn mong đợi hơn ~ 50% các tính năng của bạn thậm chí không dư thừa nhưng hoàn toàn vô dụng. Ví dụ, gói RandomForest có hàm bao bọc rfcv () sẽ xử lý ngẫu nhiên một RandomForest và bỏ qua các biến quan trọng nhất. chức năng rfcv đề cập đến chương này . Hãy nhớ nhúng lựa chọn tính năng + mô hình hóa trong một vòng xác thực chéo bên ngoài để tránh kết quả lạc quan.
[chỉnh sửa bên dưới]
Tôi có thể kiểm duyệt "hoàn toàn vô dụng". Một khu rừng ngẫu nhiên duy nhất thường sẽ không giống như hồi quy với việc thường xuyên hóa lasso hoàn toàn bỏ qua các tính năng, ngay cả khi những điều này (trong nhận thức mô phỏng) là các tính năng ngẫu nhiên. Phân chia cây quyết định theo các tính năng được chọn theo tiêu chí địa phương trong bất kỳ hàng ngàn hoặc hàng triệu nút nào và sau đó không thể hoàn tác. Tôi không ủng hộ việc cắt các tính năng xuống một lựa chọn ưu việt, nhưng đối với một số bộ dữ liệu có thể đạt được sự gia tăng đáng kể về hiệu suất dự đoán (được ước tính bằng xác thực chéo bên ngoài lặp đi lặp lại ) bằng cách sử dụng lựa chọn biến này. Một phát hiện điển hình là việc giữ 100% tính năng hoặc chỉ vài phần trăm hoạt động kém hơn, và sau đó có thể có một phạm vi trung bình rộng với hiệu suất dự đoán tương tự.
Có lẽ là một quy tắc ngón tay cái hợp lý: Khi người ta kỳ vọng rằng chính quy hóa giống như Lasso sẽ phục vụ tốt hơn so với quy tắc giống như sườn núi cho một vấn đề nhất định, thì người ta có thể thử đào tạo trước một khu rừng ngẫu nhiên và xếp hạng các tính năng bằng cách bỏ túi bên trong tầm quan trọng của biến được xác thực chéo và thử bỏ một số tính năng ít quan trọng nhất . Tầm quan trọng của biến số định lượng mức độ giảm dự đoán mô hình được xác thực chéo, khi một tính năng nhất định được hoán vị (giá trị được xáo trộn) sau khi đào tạo, trước khi dự đoán. Người ta sẽ không bao giờ chắc chắn liệu có nên đưa vào một tính năng cụ thể hay không, nhưng có thể dễ dự đoán hơn bởi 5% tính năng hàng đầu, so với 5% dưới cùng.
Từ quan điểm thực tế, thời gian chạy tính toán có thể được giảm xuống và có thể một số tài nguyên có thể được lưu, nếu có chi phí mua cố định cho mỗi tính năng.