Tôi đã duyệt các chủ đề khác nhau ở đây, nhưng tôi không nghĩ câu hỏi chính xác của mình đã được trả lời.
Tôi có bộ dữ liệu ~ 50.000 sinh viên và thời gian bỏ học. Tôi sẽ thực hiện hồi quy mối nguy theo tỷ lệ với một số lượng lớn các đồng biến tiềm năng. Tôi cũng sẽ thực hiện hồi quy logistic khi bỏ học / ở lại. Mục tiêu chính sẽ là dự đoán cho các nhóm mới của sinh viên, nhưng chúng tôi không có lý do gì để tin rằng họ sẽ thay đổi nhiều so với đoàn hệ năm ngoái.
Thông thường, tôi không có dữ liệu xa xỉ như vậy và thực hiện mô hình phù hợp với một số hình phạt, nhưng lần này tôi nghĩ tách các tập dữ liệu thử nghiệm và đào tạo int và sau đó thực hiện lựa chọn biến trên tập huấn luyện; sau đó sử dụng tập dữ liệu thử nghiệm để ước tính các tham số và khả năng dự đoán.
Đây có phải là một chiến lược tốt? Nếu không, cái gì tốt hơn?
Trích dẫn chào mừng nhưng không cần thiết.