Liệu nó có ý nghĩa để sử dụng lựa chọn tính năng trước Random Forest?


Câu trả lời:


6

Có nó và nó khá phổ biến. Nếu bạn mong đợi hơn ~ 50% các tính năng của bạn thậm chí không dư thừa nhưng hoàn toàn vô dụng. Ví dụ, gói RandomForest có hàm bao bọc rfcv () sẽ xử lý ngẫu nhiên một RandomForest và bỏ qua các biến quan trọng nhất. chức năng rfcv đề cập đến chương này . Hãy nhớ nhúng lựa chọn tính năng + mô hình hóa trong một vòng xác thực chéo bên ngoài để tránh kết quả lạc quan.

[chỉnh sửa bên dưới]

Tôi có thể kiểm duyệt "hoàn toàn vô dụng". Một khu rừng ngẫu nhiên duy nhất thường sẽ không giống như hồi quy với việc thường xuyên hóa lasso hoàn toàn bỏ qua các tính năng, ngay cả khi những điều này (trong nhận thức mô phỏng) là các tính năng ngẫu nhiên. Phân chia cây quyết định theo các tính năng được chọn theo tiêu chí địa phương trong bất kỳ hàng ngàn hoặc hàng triệu nút nào và sau đó không thể hoàn tác. Tôi không ủng hộ việc cắt các tính năng xuống một lựa chọn ưu việt, nhưng đối với một số bộ dữ liệu có thể đạt được sự gia tăng đáng kể về hiệu suất dự đoán (được ước tính bằng xác thực chéo bên ngoài lặp đi lặp lại ) bằng cách sử dụng lựa chọn biến này. Một phát hiện điển hình là việc giữ 100% tính năng hoặc chỉ vài phần trăm hoạt động kém hơn, và sau đó có thể có một phạm vi trung bình rộng với hiệu suất dự đoán tương tự.

Có lẽ là một quy tắc ngón tay cái hợp lý: Khi người ta kỳ vọng rằng chính quy hóa giống như Lasso sẽ phục vụ tốt hơn so với quy tắc giống như sườn núi cho một vấn đề nhất định, thì người ta có thể thử đào tạo trước một khu rừng ngẫu nhiên và xếp hạng các tính năng bằng cách bỏ túi bên trong tầm quan trọng của biến được xác thực chéo và thử bỏ một số tính năng ít quan trọng nhất . Tầm quan trọng của biến số định lượng mức độ giảm dự đoán mô hình được xác thực chéo, khi một tính năng nhất định được hoán vị (giá trị được xáo trộn) sau khi đào tạo, trước khi dự đoán. Người ta sẽ không bao giờ chắc chắn liệu có nên đưa vào một tính năng cụ thể hay không, nhưng có thể dễ dự đoán hơn bởi 5% tính năng hàng đầu, so với 5% dưới cùng.

Từ quan điểm thực tế, thời gian chạy tính toán có thể được giảm xuống và có thể một số tài nguyên có thể được lưu, nếu có chi phí mua cố định cho mỗi tính năng.


5
Khả năng dữ liệu cho bạn biết rằng một tính năng là vô dụng bị hạn chế nghiêm trọng và tôi hy vọng tùy chọn mà bạn giới thiệu được tích hợp vào thuật toán rừng ngẫu nhiên. Sẽ không phù hợp để thực hiện xóa các tính năng trước khi gửi các tính năng ứng cử viên đến thuật toán rừng ngẫu nhiên.
Frank Harrell

@FrankHarrell, tôi đã cố gắng xây dựng câu trả lời của mình
Soren Havelund Welling 10/03/2016

2
Tôi không đồng ý rằng bạn chọn các quy tắc tính điểm khác nhau cho các mục đích khác nhau. Một quy tắc chấm điểm chính xác không phù hợp dẫn đến việc lựa chọn các tính năng sai và cho chúng các trọng số sai. Rõ ràng hơn là sự tùy tiện trong các quy tắc tính điểm nhất định. Tốt hơn hết là chọn một mô hình dự đoán tối ưu và sau đó sử dụng lý thuyết quyết định vững chắc để đưa ra quyết định tối ưu khi sử dụng mô hình đó. Điều này được thực hiện bằng cách áp dụng một chức năng tiện ích cho các dự đoán liên tục.
Frank Harrell

1
@FrankHarrell - bạn có thể đưa ra câu trả lời chi tiết cho câu hỏi này không? rõ ràng bạn có một số lập luận mạnh mẽ chống lại việc lựa chọn tính năng ...
ihadanny

1
c
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.