Tôi có một vấn đề hồi quy với 5-6k biến. Tôi chia dữ liệu của mình thành 3 bộ không chồng chéo: đào tạo, xác nhận và kiểm tra. Tôi huấn luyện chỉ sử dụng tập huấn luyện và tạo ra rất nhiều mô hình hồi quy tuyến tính khác nhau bằng cách chọn một bộ 200 biến khác nhau cho mỗi mô hình (tôi thử khoảng 100 nghìn tập con như vậy). Tôi chấm điểm một mô hình là . Sử dụng tiêu chí này, cuối cùng tôi chọn một mô hình. Hóa ra mô hình được chọn có R ^ 2 rất giống nhau về đào tạo và dữ liệu xác nhận. Tuy nhiên, khi tôi thử mô hình này trên dữ liệu thử nghiệm, nó có R ^ 2 thấp hơn nhiều . Vì vậy, có vẻ như tôi bằng cách nào đó quá mức cho cả dữ liệu đào tạo và xác nhận. Bất kỳ ý tưởng về làm thế nào tôi có thể có được một mô hình mạnh mẽ hơn?
Tôi đã cố gắng tăng kích thước dữ liệu đào tạo, nhưng điều đó không giúp được gì. Tôi đang nghĩ về việc có thể thu nhỏ kích thước của mỗi tập hợp con.
Tôi đã thử sử dụng chính quy. Tuy nhiên, các mô hình tôi thu được bằng lasso hoặc lưới đàn hồi có R ^ 2 thấp hơn nhiều trên tập huấn luyện cũng như tập xác thực, so với mô hình tôi có được bằng cách thực hiện phương pháp chọn tập hợp con. Do đó, tôi không xem xét các mô hình này, vì tôi cho rằng nếu Mô hình A hoạt động tốt hơn Mô hình B trên cả tập huấn luyện cũng như tập xác thực, thì Mô hình A rõ ràng tốt hơn Mô hình B. Tôi sẽ rất tò mò nếu bạn không đồng ý với điều này
Về một lưu ý liên quan, bạn có nghĩ là một tiêu chí tồi để chọn mô hình của tôi không?