Tôi đang cố gắng dự đoán sự thành công hay thất bại của sinh viên dựa trên một số tính năng với mô hình hồi quy logistic. Để cải thiện hiệu suất của mô hình, tôi đã nghĩ đến việc chia các sinh viên thành các nhóm khác nhau dựa trên sự khác biệt rõ ràng và xây dựng các mô hình riêng biệt cho mỗi nhóm. Nhưng tôi nghĩ có thể khó xác định các nhóm này bằng cách kiểm tra, vì vậy tôi đã nghĩ đến việc chia nhỏ các sinh viên bằng cách phân cụm các tính năng của họ. Đây có phải là một thực tế phổ biến trong việc xây dựng các mô hình như vậy? Bạn có đề nghị tôi chia nó thành các nhóm rõ ràng (ví dụ: sinh viên học kỳ đầu tiên so với sinh viên cũ) và sau đó thực hiện phân cụm trên các nhóm đó hoặc phân cụm từ đầu?
Để cố gắng làm rõ:Ý tôi là tôi đang cân nhắc sử dụng thuật toán phân cụm để chia tập huấn luyện của tôi cho hồi quy logistic thành các nhóm. Sau đó tôi sẽ thực hiện hồi quy logistic riêng cho từng nhóm đó. Sau đó, khi sử dụng hồi quy logistic để dự đoán kết quả cho một học sinh, tôi sẽ chọn mô hình nào sẽ sử dụng dựa trên nhóm nào phù hợp nhất với họ.
Có lẽ tôi có thể làm điều tương tự bằng cách bao gồm một định danh nhóm, ví dụ: 1 nếu học sinh trở về và 0 nếu không.
Bây giờ bạn đã suy nghĩ về việc có nên phân cụm tập dữ liệu huấn luyện và sử dụng nhãn cụm của chúng như một tính năng trong hồi quy logistic hay không, thay vì xây dựng các mô hình hồi quy logistic riêng biệt cho mỗi dân số.
Nếu việc bao gồm một định danh nhóm cho những người trả lại sinh viên so với sinh viên mới thì có ích gì không, việc mở rộng danh sách các nhóm có hữu ích không? Phân cụm có vẻ như một cách tự nhiên để làm điều này.
Tôi hy vọng điều đó rõ ràng ...