Cập nhật xác suất phân loại trong hồi quy logistic theo thời gian


19

Tôi đang xây dựng một mô hình dự đoán dự báo xác suất thành công của học sinh vào cuối học kỳ. Tôi đặc biệt quan tâm đến việc sinh viên thành công hay thất bại, trong đó thành công thường được xác định là hoàn thành khóa học và đạt được 70% hoặc nhiều điểm hơn trong tổng số điểm có thể.

Khi tôi triển khai mô hình, ước tính xác suất thành công cần được cập nhật theo thời gian khi có thêm thông tin - lý tưởng ngay sau khi có điều gì đó xảy ra, như khi học sinh nộp bài tập hoặc đạt điểm trên một. Việc cập nhật này nghe có vẻ giống Bayes với tôi, nhưng được đào tạo về thống kê giáo dục, đó là một chút ngoài vùng thoải mái của tôi.

Cho đến nay tôi đã sử dụng hồi quy logistic (thực ra là Lasso) với một bộ dữ liệu lịch sử có chứa các ảnh chụp nhanh theo tuần. Tập dữ liệu này có các quan sát tương quan, vì mỗi học sinh có TermLength/7quan sát; quan sát cho một học sinh có tương quan. Tôi không đặc biệt mô hình hóa mối tương quan trong các quan sát hàng tuần của một học sinh cụ thể. Tôi tin rằng tôi chỉ cần xem xét rằng trong một thiết lập suy luận vì các lỗi tiêu chuẩn sẽ quá nhỏ. Tôi nghĩ - nhưng không chắc về điều này - rằng vấn đề duy nhất phát sinh từ các quan sát tương quan là tôi cần cẩn thận khi xác thực chéo để giữ các quan sát phân cụm trong một tập hợp con của dữ liệu, do đó tôi không nhận được tỷ lệ lỗi ngoài mẫu thấp một cách giả tạo dựa trên việc đưa ra dự đoán về một người mà người mẫu đã nhìn thấy.

Tôi đang sử dụng gói glmnet của R để thực hiện một Lasso với mô hình logistic để tạo xác suất thành công / thất bại và để tự động chọn dự đoán cho một khóa học cụ thể. Tôi đã sử dụng biến tuần làm yếu tố, tương tác với tất cả các yếu tố dự đoán khác. Tôi không nghĩ rằng điều này nói chung khác với việc chỉ ước tính các mô hình dựa trên tuần riêng lẻ ngoại trừ việc nó đưa ra một số ý tưởng về cách có thể có một số mô hình phổ biến được duy trì trong suốt nhiệm kỳ được điều chỉnh thông qua các yếu tố điều chỉnh rủi ro khác nhau vào các tuần khác nhau.

Câu hỏi chính của tôi là: Có cách nào tốt hơn để cập nhật xác suất phân loại theo thời gian thay vì chỉ chia dữ liệu thành các ảnh chụp nhanh hàng tuần (hoặc dựa trên khoảng thời gian khác), giới thiệu biến yếu tố thời gian tương tác với mọi tính năng khác và sử dụng các tính năng tích lũy (điểm tích lũy kiếm được, ngày tích lũy trong lớp, v.v.)?

Câu hỏi thứ hai của tôi là: tôi có thiếu điều gì quan trọng ở đây về mô hình dự đoán với các quan sát tương quan không?

Câu hỏi thứ ba của tôi là: làm thế nào tôi có thể khái quát hóa điều này thành cập nhật theo thời gian thực, với điều kiện tôi đang thực hiện các ảnh chụp nhanh hàng tuần? Tôi đang lên kế hoạch chỉ cắm các biến cho khoảng thời gian hàng tuần hiện tại, nhưng điều này có vẻ khó hiểu với tôi.

FYI, tôi được đào tạo về các chỉ số giáo dục ứng dụng nhưng có nền tảng về thống kê toán học từ rất lâu rồi. Tôi có thể làm một cái gì đó tinh vi hơn nếu nó có ý nghĩa nhưng tôi cần nó được giải thích bằng các thuật ngữ tương đối dễ tiếp cận.

Câu trả lời:


4

t0,t1,Giáo dục,tntTôi(ZTôi,STôi)ZTôiSTôi(1,0)Prob(zTôi= =0|STôi-1)STôi

Xác suất bỏ học không đứng yên, vì bạn sẽ có được một lần bỏ học ngay trước ngày bỏ học cuối cùng mà không bị phạt. Nhưng bạn có thể ước tính những điều này từ dữ liệu trong quá khứ. Bạn cũng có thể ước tính xác suất bỏ qua như là một chức năng của hiệu suất hiện tại (ảm đạm).

Sn

ZS

S

Lúc ban đầu, xác suất vượt qua của học sinh chỉ đơn giản là tỷ lệ đỗ của lớp trước.

S170-S1

Là một phần thưởng, bạn có thể tính toán một phạm vi xác suất, sẽ thu hẹp khi thời hạn tiến triển. Trên thực tế, những sinh viên mạnh mẽ sẽ vượt qua mốc 70 \% trước khi kết thúc nhiệm kỳ và thành công của họ sẽ chắc chắn vào thời điểm đó. Đối với những học sinh yếu, thất bại cũng sẽ trở nên chắc chắn trước khi kết thúc.

RE: câu hỏi 3. Bạn có nên đi đến thời gian liên tục? Tôi sẽ không, bởi vì điều đó đặt một trong thế giới của các quá trình ngẫu nhiên thời gian liên tục và toán học liên quan là trên mức lương của tôi. Không chỉ vậy, bạn không có khả năng nhận được một kết quả khác biệt đáng kể.

Cách tốt nhất để nâng cấp mô hình mà tôi đã vạch ra không phải là đi vào thời gian liên tục, mà là điều chỉnh xác suất chuyển tiếp trên cơ sở kinh nghiệm trước đó. Có lẽ những sinh viên yếu đuối tụt lại phía sau hơn một mô hình độc lập sẽ dự đoán. Kết hợp tính không đồng nhất sẽ cải thiện mô hình nhiều hơn là đi từ thời gian rời rạc sang thời gian liên tục.


0

Khi tôi huấn luyện các mô hình dự đoán cho một loại triển khai tương tự, tôi đảm bảo rằng các bộ dữ liệu của tôi có một số loại Term_End_Date để tôi có thể rút ngắn thời gian còn lại cho đến khi thời hạn kết thúc. Điều này có thể sẽ trở thành một yếu tố dự đoán quan trọng trong mô hình của bạn.

Liên quan đến câu hỏi về các quan sát tương quan, tôi cho rằng vấn đề lớn như thế nào về kho lưu trữ dữ liệu mà bạn có. Nếu có thể, tôi sẽ chọn ngẫu nhiên 1 quan sát cho mỗi học sinh, được phân tầng vào [# tuần cho đến khi kết thúc học kỳ]. Tôi cũng sẽ lấy từ các điều khoản cũ hơn, nếu có thể. Nếu bạn không có đủ dữ liệu để làm điều đó, có lẽ bạn có thể thử phương pháp lấy mẫu lại như bootstrap.

Tôi nghĩ rằng điều quan trọng nhất nếu bạn có một bộ dữ liệu nhỏ là giữ đủ dữ liệu dưới dạng lưu trữ để đảm bảo mô hình cuối cùng của bạn ổn định.

Tôi nghĩ rằng khi bạn hoàn thành công việc và bạn có một công thức tính điểm, việc này sẽ khá dễ thực hiện. Nhưng có, bạn vẫn nên cắm các biến x hàng tuần mà bạn sẽ cần tính điểm - nhưng điều này nghe có vẻ giống như vấn đề thu thập dữ liệu và ít hơn về việc triển khai mô hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.