Tôi đang xây dựng một mô hình dự đoán dự báo xác suất thành công của học sinh vào cuối học kỳ. Tôi đặc biệt quan tâm đến việc sinh viên thành công hay thất bại, trong đó thành công thường được xác định là hoàn thành khóa học và đạt được 70% hoặc nhiều điểm hơn trong tổng số điểm có thể.
Khi tôi triển khai mô hình, ước tính xác suất thành công cần được cập nhật theo thời gian khi có thêm thông tin - lý tưởng ngay sau khi có điều gì đó xảy ra, như khi học sinh nộp bài tập hoặc đạt điểm trên một. Việc cập nhật này nghe có vẻ giống Bayes với tôi, nhưng được đào tạo về thống kê giáo dục, đó là một chút ngoài vùng thoải mái của tôi.
Cho đến nay tôi đã sử dụng hồi quy logistic (thực ra là Lasso) với một bộ dữ liệu lịch sử có chứa các ảnh chụp nhanh theo tuần. Tập dữ liệu này có các quan sát tương quan, vì mỗi học sinh có quan sát; quan sát cho một học sinh có tương quan. Tôi không đặc biệt mô hình hóa mối tương quan trong các quan sát hàng tuần của một học sinh cụ thể. Tôi tin rằng tôi chỉ cần xem xét rằng trong một thiết lập suy luận vì các lỗi tiêu chuẩn sẽ quá nhỏ. Tôi nghĩ - nhưng không chắc về điều này - rằng vấn đề duy nhất phát sinh từ các quan sát tương quan là tôi cần cẩn thận khi xác thực chéo để giữ các quan sát phân cụm trong một tập hợp con của dữ liệu, do đó tôi không nhận được tỷ lệ lỗi ngoài mẫu thấp một cách giả tạo dựa trên việc đưa ra dự đoán về một người mà người mẫu đã nhìn thấy.
Tôi đang sử dụng gói glmnet của R để thực hiện một Lasso với mô hình logistic để tạo xác suất thành công / thất bại và để tự động chọn dự đoán cho một khóa học cụ thể. Tôi đã sử dụng biến tuần làm yếu tố, tương tác với tất cả các yếu tố dự đoán khác. Tôi không nghĩ rằng điều này nói chung khác với việc chỉ ước tính các mô hình dựa trên tuần riêng lẻ ngoại trừ việc nó đưa ra một số ý tưởng về cách có thể có một số mô hình phổ biến được duy trì trong suốt nhiệm kỳ được điều chỉnh thông qua các yếu tố điều chỉnh rủi ro khác nhau vào các tuần khác nhau.
Câu hỏi chính của tôi là: Có cách nào tốt hơn để cập nhật xác suất phân loại theo thời gian thay vì chỉ chia dữ liệu thành các ảnh chụp nhanh hàng tuần (hoặc dựa trên khoảng thời gian khác), giới thiệu biến yếu tố thời gian tương tác với mọi tính năng khác và sử dụng các tính năng tích lũy (điểm tích lũy kiếm được, ngày tích lũy trong lớp, v.v.)?
Câu hỏi thứ hai của tôi là: tôi có thiếu điều gì quan trọng ở đây về mô hình dự đoán với các quan sát tương quan không?
Câu hỏi thứ ba của tôi là: làm thế nào tôi có thể khái quát hóa điều này thành cập nhật theo thời gian thực, với điều kiện tôi đang thực hiện các ảnh chụp nhanh hàng tuần? Tôi đang lên kế hoạch chỉ cắm các biến cho khoảng thời gian hàng tuần hiện tại, nhưng điều này có vẻ khó hiểu với tôi.
FYI, tôi được đào tạo về các chỉ số giáo dục ứng dụng nhưng có nền tảng về thống kê toán học từ rất lâu rồi. Tôi có thể làm một cái gì đó tinh vi hơn nếu nó có ý nghĩa nhưng tôi cần nó được giải thích bằng các thuật ngữ tương đối dễ tiếp cận.