Tôi đang cố gắng sử dụng Hồi quy rừng ngẫu nhiên trong scikits-learn. Vấn đề là tôi đang nhận được một lỗi kiểm tra thực sự cao:
train MSE, 4.64, test MSE: 252.25.
Đây là cách dữ liệu của tôi trông: (màu xanh: dữ liệu thực, màu xanh lá cây: dự đoán):
Tôi đang sử dụng 90% cho đào tạo và 10% cho thử nghiệm. Đây là mã tôi đang sử dụng sau khi thử một số kết hợp tham số:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
Các chiến lược có thể để cải thiện sự phù hợp của tôi là gì? Có điều gì khác tôi có thể làm để trích xuất mô hình cơ bản không? Đối với tôi, dường như không thể tin được rằng sau rất nhiều lần lặp lại cùng một mô hình, mô hình hành xử rất tệ với dữ liệu mới. Tôi có hy vọng gì để phù hợp với dữ liệu này không?