Tôi đang sử dụng gói RandomForest trong R để phát triển mô hình rừng ngẫu nhiên để cố gắng giải thích kết quả liên tục trong bộ dữ liệu "rộng" với nhiều dự đoán hơn mẫu.
Cụ thể, tôi phù hợp với một mô hình RF cho phép quy trình chọn từ một bộ ~ 75 biến dự đoán mà tôi nghĩ là quan trọng.
Tôi đang kiểm tra xem mô hình đó dự đoán kết quả thực tế như thế nào cho một bộ thử nghiệm dành riêng, sử dụng phương pháp được đăng ở đây trước đó , cụ thể là,
... hoặc trong R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Nhưng bây giờ tôi có thêm ~ 25 biến dự đoán mà tôi có thể thêm. Khi sử dụng bộ ~ 100 dự đoán, R² cao hơn. Tôi muốn kiểm tra thống kê này, nói cách khác, khi sử dụng bộ ~ 100 dự đoán, kiểm tra mô hình có tốt hơn đáng kể trong dữ liệu kiểm tra so với mô hình phù hợp sử dụng ~ 75 dự đoán hay không. Tức là, R² từ việc kiểm tra mô hình RF phù hợp với tập dữ liệu đầy đủ cao hơn đáng kể so với R² từ việc kiểm tra mô hình RF trên tập dữ liệu rút gọn.
Đây là điều quan trọng đối với tôi để kiểm tra, bởi vì đây là dữ liệu thí điểm và việc có thêm 25 dự đoán đó là tốn kém, và tôi cần biết liệu tôi có nên trả tiền để đo lường những dự đoán đó trong một nghiên cứu tiếp theo lớn hơn hay không.
Tôi đang cố gắng nghĩ về một số cách tiếp cận thay đổi / hoán vị nhưng không có gì xuất hiện trong tâm trí.