Tôi có một bộ dữ liệu với hầu hết các biến tài chính (120 tính năng, ví dụ 4k) hầu hết có tương quan cao và rất ồn (ví dụ: các chỉ số kỹ thuật) vì vậy tôi muốn chọn khoảng 20-30 để sử dụng sau này với đào tạo mô hình (phân loại nhị phân - tăng giảm).
Tôi đã suy nghĩ về việc sử dụng rừng ngẫu nhiên để xếp hạng tính năng. Có phải là một ý tưởng tốt để sử dụng chúng đệ quy? Ví dụ: giả sử trong vòng đầu tiên tôi giảm 20% tệ nhất, thứ hai cũng như vậy cho đến khi tôi nhận được số lượng tính năng mong muốn. Tôi có nên sử dụng xác nhận chéo với RF? (Đó là trực giác đối với tôi không sử dụng CV vì đó là khá nhiều những gì RF đã làm.)
Ngoài ra, nếu tôi đi với các khu rừng ngẫu nhiên, tôi có nên sử dụng chúng làm phân loại cho nhị phân hoặc hồi quy cho mức tăng / giảm thực tế để có được các tính năng quan trọng không?
Nhân tiện, các mô hình tôi muốn thử sau khi lựa chọn tính năng là: SVM, mạng lưới thần kinh, hồi quy trọng số cục bộ và rừng ngẫu nhiên. Tôi chủ yếu làm việc với Python.
built-in
thuộc tính của RandomForestClassifier trong sklearn
được gọi là feature_importances_
....? Bạn sẽ thấy nó trong liên kết.