12 giáo viên đang dạy 600 học sinh. 12 đoàn hệ được giảng dạy bởi các giáo viên này có quy mô từ 40 đến 90 sinh viên và chúng tôi hy vọng sự khác biệt có hệ thống giữa các đoàn hệ, vì sinh viên tốt nghiệp được phân bổ không tương xứng cho các đoàn hệ cụ thể và kinh nghiệm trước đây cho thấy sinh viên tốt nghiệp có điểm trung bình cao hơn đáng kể các sinh viên đại học.
Các giáo viên đã chấm điểm tất cả các bài viết trong đoàn hệ của họ, và đã chỉ định cho họ một điểm trong số 100.
Mỗi giáo viên cũng đã xem xét một bài được chọn ngẫu nhiên từ ba giáo viên khác và cho điểm đó là 100. Mỗi giáo viên đã có ba bài của mình được đánh dấu bởi một giáo viên khác. Do đó, 36 loại giấy tờ khác nhau đã được đánh dấu chéo theo cách này và tôi gọi đây là dữ liệu hiệu chuẩn của mình.
Tôi cũng có thể thấy có bao nhiêu sinh viên tốt nghiệp trong mỗi đoàn hệ.
Câu hỏi của tôi là:
A) Làm cách nào tôi có thể sử dụng dữ liệu hiệu chuẩn này để điều chỉnh các nhãn hiệu ban đầu để làm cho chúng công bằng hơn? Đặc biệt, tôi muốn rửa sạch càng nhiều càng tốt các tác động của các nhà sản xuất quá hào phóng / vô duyên.
B) Dữ liệu hiệu chuẩn của tôi thích hợp như thế nào? Tôi không có lựa chọn nào trong 36 điểm dữ liệu dữ liệu hiệu chuẩn khá hạn chế mà tôi có trong khóa học này và không có tùy chọn nào để thu thập thêm trong suốt học kỳ hiện tại. Tuy nhiên, nếu tình huống này tái diễn, tôi có thể thu thập thêm dữ liệu hiệu chuẩn hoặc thu thập các loại dữ liệu hiệu chuẩn khác.
Câu hỏi này là họ hàng của một câu hỏi phổ biến mà tôi đã hỏi tại: Làm thế nào tôi có thể giải quyết tốt nhất các tác động của các điểm đánh dấu với mức độ hào phóng khác nhau trong việc chấm điểm bài viết của học sinh? . Tuy nhiên, đó là một khóa học khác và tôi không chắc việc đọc câu hỏi đó sẽ hữu ích như thế nào cho câu hỏi hiện tại này, vì vấn đề chính là tôi không có dữ liệu hiệu chuẩn.
lm(score ~ gradStudent + ... + teacherID
nên làm điều đó.