Biết làm thế nào học sinh lớp khác nhau là tốt, nhưng vẫn không cho bạn biết những gì để bù đắp các lớp để . Để đơn giản hãy tưởng tượng chỉ cần hai học sinh lớp. Ngay cả khi chúng tôi kết luận học sinh lớp 1 luôn hào phóng hơn 5 điểm so với học sinh lớp 2, điều đó không cho bạn biết phải làm gì với hai học sinh từng học sinh lớp 70, một học sinh lớp 1 và một học sinh lớp 2. Chúng ta có nói rằng học sinh lớp 2 là một điểm đánh dấu khắc nghiệt, và tăng 70 đến 75, trong khi giữ 70 được đánh dấu bởi học sinh lớp 1 không thay đổi? Hay chúng ta cho rằng học sinh lớp 1 là quá khoan dung, hạ học sinh của mình xuống 65 điểm và giữ cho học sinh lớp 2 không thay đổi? Chúng ta có thỏa hiệp nửa chừng - mở rộng cho trường hợp của bạn, dựa trên trung bình của 11 học sinh lớp không? Đó là điểm tuyệt đối quan trọng, vì vậy biết rộng lượng tương đối là không đủ.
Kết luận của bạn có thể phụ thuộc vào mức độ "khách quan" mà bạn cảm thấy là dấu hiệu tuyệt đối cuối cùng. Một mô hình tinh thần sẽ đề xuất mỗi học sinh có một lớp "chính xác" - một mô hình sẽ được trao bởi Người xác định chính nếu họ có thời gian đánh dấu từng bài riêng lẻ - mà các lớp được quan sát là gần đúng. Trong mô hình này, các lớp được quan sát cần phải được bù cho học sinh lớp của họ, để đưa chúng càng gần càng tốt đối với lớp "thật" không quan sát được của chúng. Một mô hình khác có thể là tất cả việc chấm điểm đều mang tính chủ quan và chúng tôi tìm cách biến đổi từng cấp độ quan sát theo nhãn hiệu mà chúng tôi dự đoán sẽ được trao nếu tất cả các học sinh đã xem xét cùng một loại giấy và đạt được một mức độ thỏa hiệp hoặc điểm trung bình nào đó. Tôi thấy mô hình thứ hai ít thuyết phục hơn như một giải pháp ngay cả khi sự thừa nhận tính chủ quan là thực tế hơn. Trong một môi trường giáo dục thường có người chịu trách nhiệm đánh giá cao nhất, để đảm bảo rằng học sinh nhận được "điểm số họ xứng đáng", nhưng vai trò lãnh đạo này về cơ bản đã miễn trách nhiệm cho những học sinh lớp mà chúng ta đã biết không đồng ý rõ ràng. Từ đây tôi giả sử ở đólà một lớp "chính xác" mà chúng tôi nhắm đến để ước tính, nhưng đây là một đề xuất có thể tranh cãi và có thể không phù hợp với hoàn cảnh của bạn.
Giả sử học sinh A, B, C và D, tất cả trong cùng một nhóm, "nên" được xếp loại lần lượt là 75, 80, 85 và 90 nhưng học sinh hào phóng của chúng luôn đạt 5 điểm quá cao. Chúng tôi quan sát 80, 85, 90 và 95 và nên trừ 5, nhưng việc tìm ra con số để trừ là vấn đề. Không thể thực hiện được bằng cách so sánh kết quả giữa các đoàn hệ vì chúng tôi hy vọng đoàn hệ sẽ thay đổi khả năng trung bình. Một khả năng là sử dụng kết quả kiểm tra trắc nghiệm để dự đoán điểm chính xác trong bài tập thứ hai, sau đó sử dụng kết quả này để đánh giá sự khác nhau giữa mỗi học sinh và điểm chính xác. Nhưng việc đưa ra dự đoán này là không tầm thường - nếu bạn mong đợi độ lệch trung bình và độ lệch chuẩn khác nhau giữa hai đánh giá, bạn không thể cho rằng các điểm đánh giá thứ hai phải khớp với điểm đầu tiên.
Ngoài ra, sinh viên khác nhau về năng khiếu tương đối trong các đánh giá trắc nghiệm và viết. Bạn có thể coi đó là một loại hiệu ứng ngẫu nhiên, tạo thành một thành phần của các lớp "được quan sát" và "đúng" của học sinh, nhưng không bị bắt bởi lớp "dự đoán" của chúng. Nếu các đoàn hệ khác nhau một cách có hệ thống và các sinh viên trong đoàn hệ có xu hướng tương tự nhau, thì chúng ta không nên mong đợi hiệu ứng này trung bình bằng 0 trong mỗi đoàn hệ. Nếu điểm số quan sát của một đoàn hệ trung bình +5 so với dự đoán của họ, điều đó là không thểđể xác định xem đây có phải là do một học sinh hào phóng, một đoàn hệ đặc biệt phù hợp với đánh giá bằng văn bản hơn là nhiều lựa chọn, hoặc một số kết hợp của cả hai. Trong một trường hợp cực đoan, đoàn hệ thậm chí có thể có năng khiếu thấp hơn ở lần đánh giá thứ hai nhưng điều này được bù đắp nhiều hơn bởi một học sinh rất hào phóng - hoặc ngược lại. Bạn không thể phá vỡ điều này. Nó bối rối.
Tôi cũng nghi ngờ tính đầy đủ của một mô hình phụ gia đơn giản như vậy cho dữ liệu của bạn. Học sinh có thể khác với Người xác định chính không chỉ bằng cách thay đổi vị trí, mà còn lan rộng - mặc dù các đoàn hệ có thể khác nhau về tính đồng nhất, bạn không thể kiểm tra mức độ lây lan của các lớp được quan sát trong mỗi đoàn hệ để phát hiện điều này. Hơn nữa, phần lớn phân phối có điểm số cao, khá gần mức tối đa lý thuyết là 100. Tôi dự đoán điều này sẽ giới thiệu tính phi tuyến tính do nén gần mức tối đa - một học sinh rất hào phóng có thể cho điểm A, B, C và D như 85, 90, 94, 97. Điều này khó đảo ngược hơn là chỉ trừ đi một hằng số. Tồi tệ hơn, bạn có thể thấy "cắt xén" - một học sinh cực kỳ hào phóng có thể xếp loại chúng là 90, 95, 100, 100. Điều này là không thểđể đảo ngược, và thông tin về hiệu suất tương đối của C và D bị mất không thể phục hồi.
Học sinh lớp của bạn cư xử rất khác nhau. Bạn có chắc rằng họ chỉ khác nhau về sự hào phóng chung của họ, hơn là sự hào phóng của họ trong các thành phần khác nhau của đánh giá? Điều này có thể đáng để kiểm tra, vì nó có thể đưa ra các biến chứng khác nhau - ví dụ: điểm B được quan sát có thể kém hơn A, mặc dù B là 5 điểm "tốt hơn", ngay cả khi điểm được phân bổ của học sinh cho mỗi thành phần là một hàm tăng đơn điệu của Người phán xử chính! Giả sử đánh giá được phân chia giữa Q1 (A nên đạt 30/50, B 45/50) và Q2 (A nên đạt 45/50, B 35/50). Hãy tưởng tượng học sinh rất khoan dung trong Q1 (các lớp được quan sát: A 40/50, B 50/50) nhưng khắc nghiệt vào Q2 (quan sát: A 42/50, 30/50), sau đó chúng tôi quan sát tổng số 82 cho A và 80 cho B. Nếu bạn phải xem xét điểm thành phần,
Có thể cho rằng đây là một nhận xét mở rộng hơn là một câu trả lời, theo nghĩa là nó không đề xuất một giải pháp cụ thể nào trong giới hạn ban đầu của vấn đề của bạn. Nhưng nếu học sinh lớp của bạn đã xử lý khoảng 55 bài mỗi bài, vậy có tệ lắm không khi chúng phải xem xét năm hoặc mười bài nữa cho mục đích hiệu chuẩn? Bạn đã có một ý tưởng tốt về khả năng của học sinh, vì vậy có thể chọn một mẫu bài từ bên phải trong phạm vi các lớp. Sau đó, bạn có thể đánh giá xem bạn cần phải bù cho sự hào phóng của học sinh trong toàn bộ bài kiểm tra hoặc trong từng thành phần, và liệu có nên làm như vậy chỉ bằng cách thêm / bớt một hằng số hoặc bằng một thứ phức tạp hơn như nội suy (ví dụ nếu bạn lo lắng về việc không tuyến tính gần 100). Nhưng một lời cảnh báo về phép nội suy: giả sử Người đánh giá chính đánh dấu năm bài báo mẫu là 70, 75, 80, 85 và 90, trong khi một học sinh đánh dấu chúng là 80, 88, 84, 93 và 96 nên có một số bất đồng về trật tự. Bạn có thể muốn ánh xạ các lớp được quan sát từ 96 đến 100 vào khoảng 90 đến 100 và quan sát các lớp từ 93 đến 96 vào khoảng 85 đến 90. Nhưng một số ý kiến được yêu cầu cho các dấu dưới đó. Có lẽ các lớp quan sát từ 84 đến 93 nên được ánh xạ đến khoảng 75 đến 85? Một thay thế sẽ là một hồi quy (có thể là đa thức) để có được một công thức cho "lớp thực được dự đoán" từ "lớp được quan sát". Có lẽ các lớp quan sát từ 84 đến 93 nên được ánh xạ đến khoảng 75 đến 85? Một thay thế sẽ là một hồi quy (có thể là đa thức) để có được một công thức cho "lớp thực được dự đoán" từ "lớp được quan sát". Có lẽ các lớp quan sát từ 84 đến 93 nên được ánh xạ đến khoảng 75 đến 85? Một thay thế sẽ là một hồi quy (có thể là đa thức) để có được một công thức cho "lớp thực được dự đoán" từ "lớp được quan sát".