Có hai phần trong số này: (a) chọn biểu đồ ( thiết kế thử nghiệm ) để xác định cặp bài luận nào học sinh sẽ đánh giá trong quá trình chấm điểm ngang hàng và (b) xếp hạng tất cả các bài tiểu luận, dựa trên điểm ngang hàng của học sinh, xác định giáo viên nào nên xếp hạng. Tôi sẽ đề xuất một số phương pháp cho mỗi.
Chọn biểu đồ
Báo cáo vấn đề. Bước đầu tiên là tạo một biểu đồ. Nói cách khác, bạn cần chọn cặp bài luận nào để trình bày cho học sinh, trong bài tập chấm điểm ngang hàng.
G
d
n
May mắn thay, có những thuật toán được biết đến để làm điều này. Về cơ bản, bạn làm như sau:
3nn3n3n
n
Tiếp theo, kiểm tra xem đồ thị kết quả có đơn giản không (nghĩa là nó không có vòng lặp tự và không có cạnh lặp lại). Nếu nó không đơn giản, loại bỏ biểu đồ và quay lại bước 1. Nếu nó đơn giản, bạn đã hoàn thành; xuất đồ thị này.
O(1)
Tôi đã thấy cách tiếp cận này được ghi có vào Bollobas, Bender và Canfield. Cách tiếp cận cũng được tóm tắt ngắn gọn trên Wikipedia . Bạn cũng có thể tìm thấy một cuộc thảo luận về bài viết trên blog này .
nnn
Xếp hạng tất cả các bài tiểu luận
Báo cáo vấn đề. OK, vì vậy bây giờ bạn có một biểu đồ, và bạn đã trình bày các cặp bài luận này (như được chỉ ra bởi các cạnh trong biểu đồ) cho các sinh viên để họ chấm điểm trong bài tập chấm điểm. Bạn có kết quả của mỗi so sánh các bài tiểu luận. Bây giờ nhiệm vụ của bạn là suy ra một thứ hạng tuyến tính trên tất cả các bài tiểu luận, để giúp bạn xác định cái nào sẽ được giáo viên đánh giá.
Giải pháp. Tôi đề nghị bạn sử dụng mô hình Bradley-Terry . Đó là một phương pháp toán học giải quyết chính xác vấn đề này. Nó được thiết kế để xếp hạng người chơi trong một số môn thể thao, dựa trên kết quả trận đấu giữa một số cặp người chơi. Nó giả định rằng mỗi người chơi có một sức mạnh (chưa biết), có thể được định lượng như một số thực và xác suất Alice đánh bại Bob được xác định bởi một số chức năng trơn tru của sự khác biệt về sức mạnh của họ. Sau đó, đưa ra các hồ sơ thắng / thua theo cặp, nó ước tính sức mạnh của mỗi người chơi.
Điều này nên hoàn hảo cho bạn. Bạn có thể coi mỗi bài luận như một người chơi. Mỗi so sánh giữa hai bài tiểu luận (trong quá trình chấm điểm ngang hàng) giống như kết quả của một trận đấu giữa chúng. Mô hình Bradley-Terry sẽ cho phép bạn lấy tất cả dữ liệu đó và suy ra một điểm mạnh cho mỗi bài luận, trong đó điểm mạnh cao hơn tương ứng với bài tiểu luận tốt hơn. Bây giờ bạn có thể sử dụng những điểm mạnh đó để sắp xếp thứ tự tất cả các bài tiểu luận.
ij
Có nhiều cách khác nhau để suy ra xếp hạng hoặc thứ hạng cho tất cả các bài tiểu luận, dựa trên dữ liệu bạn có. Ví dụ, phương thức Elo là một phương thức khác. Tôi tóm tắt một vài trong số chúng trong câu trả lời của tôi cho một câu hỏi khác nhau ; đọc câu trả lời đó để biết thêm chi tiết
Một nhận xét khác: Mô hình Bradley-Terry giả định rằng kết quả của mỗi so sánh giữa hai người chơi là thắng hoặc thua (nghĩa là kết quả nhị phân). Tuy nhiên, có vẻ như bạn thực sự sẽ có dữ liệu chi tiết hơn: thanh trượt của bạn sẽ đưa ra ước tính sơ bộ về việc học sinh lớp ngang hàng đánh giá tốt hơn một bài luận so với bài khác. Cách tiếp cận đơn giản nhất là chỉ ánh xạ mỗi thanh trượt đến kết quả nhị phân. Tuy nhiên, nếu bạn thực sự muốn, bạn có thể sử dụng tất cả dữ liệu bằng cách sử dụng phân tích tinh vi hơn. Mô hình Bradley-Terry liên quan đến việc thực hiện hồi quy logistic. Nếu bạn khái quát rằng để sử dụng logit theo thứ tự , tôi cá rằng bạn có thể tận dụng thông tin bổ sung bạn có từ mỗi thanh trượt, cho rằng kết quả từ các thanh trượt không phải là nhị phân mà là một trong nhiều khả năng.
Sử dụng hiệu quả giáo viên
Bạn đề nghị giáo viên tự chấm điểm X% trên cùng và X% dưới cùng của tất cả các bài luận (sử dụng xếp hạng được suy ra từ kết quả chấm điểm ngang hàng). Điều này có thể hoạt động, nhưng tôi nghi ngờ đây không phải là cách sử dụng hiệu quả nhất trong thời gian giới hạn của giáo viên. Thay vào đó, tôi muốn đề xuất một phương pháp thay thế.
Tôi đề nghị bạn nên cho giáo viên lớp một tập hợp các bài tiểu luận, với tập hợp con được chọn cẩn thận để cố gắng cung cấp hiệu chuẩn tốt nhất có thể cho tất cả các bài tiểu luận mà giáo viên không chấm điểm. Đối với điều này, tôi nghĩ rằng nó có thể hữu ích nếu bạn chọn một mẫu bài luận bao gồm nhiều câu trả lời có thể có (vì vậy đối với mỗi bài luận, có một số bài luận được giáo viên xếp loại không quá xa nó). Đối với điều này, tôi có thể nghĩ về hai cách tiếp cận bạn có thể xem xét thử:
nkkk
kd(ei,ej)eiejSd(e,S)=mine′∈Sd(e,e′)là khoảng cách từ để bài luận gần nhất trong . Thuật toán đầu tiên ở điểm xa nhất tính toán danh sách tiểu luận, , như sau: là bài luận tối đa hóa (trong số tất cả các bài tiểu luận sao cho ). Thuật toán này tạo ra một tập hợp các tiểu luận rằng như khác nhau từ mỗi khác càng tốt - có nghĩa là mỗi người trong số các bài tiểu luận còn lại là khá giống với ít nhất một trong những . Vì vậy, sẽ là hợp lý khi có giáo viên lớpeSke1,e2,…,ekei+1d(e,{e1,e2,…,ei})ee∉{e1,e2,…,ei}kkk bài tiểu luận được lựa chọn bởi thuật toán FPF.
Tôi nghi ngờ một trong hai cách tiếp cận này có thể cung cấp điểm chính xác hơn so với việc giáo viên đạt điểm X% cao nhất và X% dưới cùng của bài luận - vì các bài luận tốt nhất và tồi nhất có lẽ không đại diện cho khối lượng bài tiểu luận ở giữa.
Trong cả hai phương pháp, bạn có thể sử dụng hàm khoảng cách tinh vi hơn, có tính đến không chỉ các ước tính sức mạnh dựa trên phân loại ngang hàng mà còn các yếu tố khác có được từ các bài tiểu luận. Hàm khoảng cách đơn giản nhất có thể sẽ chỉ tính đến kết quả của mô hình Terry-Bradley, tức là trong đó là sức mạnh của tiểu luận theo ước tính của mô hình Terry-Bradley dựa trên kết quả chấm điểm ngang hàng. Tuy nhiên, bạn có thể làm một cái gì đó tinh vi hơn. Chẳng hạn, bạn có thể tính khoảng cách chỉnh sửa Levenshtein đã chuẩn hóa giữa bài luận vàd(e1,e2)=(s(e1)−s(e2))2s(e)ee1e2(coi chúng là các chuỗi văn bản, tính toán khoảng cách chỉnh sửa và chia cho độ dài lớn hơn của hai) và sử dụng nó như một yếu tố khác trong hàm khoảng cách. Bạn cũng có thể tính toán các vectơ đặc trưng bằng cách sử dụng mô hình túi từ trên các từ trong bài tiểu luận và sử dụng khoảng cách L2 giữa các vectơ đặc trưng này (với các tính năng được chuẩn hóa bằng tf-idf) làm một yếu tố khác trong hàm khoảng cách. Bạn có thể sử dụng hàm khoảng cách là trung bình có trọng số của sự khác biệt về sức mạnh (dựa trên ước tính của Terry-Bradley), khoảng cách chỉnh sửa được chuẩn hóa và bất kỳ thứ gì khác có vẻ hữu ích. Một hàm khoảng cách tinh vi hơn như vậy có thể giúp thực hiện công việc tốt hơn trong việc giúp thuật toán phân cụm chọn ra những bài luận tốt nhất để có điểm giáo viên.k