Thiết kế phân loại ngang hàng - chọn biểu đồ, để có được thứ hạng / xếp hạng chính xác


9

Lý lịch. Tôi đang viết một số mã để chấm điểm bán tự động, sử dụng phân loại ngang hàng như một phần của quy trình chấm điểm. Các sinh viên được cung cấp các cặp bài luận cùng một lúc, và các sinh viên có một thanh trượt để chọn cái nào tốt hơn và nó tốt hơn bao nhiêu. ví dụ: thanh trượt có thể trông giống như thế này:

A---X-B

Dựa trên kết quả chấm điểm ngang hàng, các bài tiểu luận được xếp hạng và sau đó giáo viên sẽ chấm điểm X% hàng đầu và X% dưới cùng và điểm cho tất cả các bài tiểu luận sẽ được tự động tính toán dựa trên điều này. Tôi đã đưa ra các phương pháp để thực hiện quá trình xếp hạng / tính điểm này; phần đó hoạt động tốt.

Câu hỏi của tôi. Làm thế nào tôi nên chọn cặp bài luận nào để cung cấp cho sinh viên?

Mô phỏng cho thấy chúng ta cần một bài luận để được xếp loại ít nhất 3 lần, để có được thứ hạng chính xác. Vì vậy, mỗi bài luận nên xuất hiện trong ít nhất 3 trong số các cặp được trình bày để chấm điểm ngang hàng.

Chúng ta có thể nghĩ về điều này như là một vấn đề đồ thị. Hãy nghĩ về các bài tiểu luận như các nút. Mỗi cạnh đại diện cho một cặp bài tiểu luận được trình bày trong quá trình chấm điểm ngang hàng. Các kết quả chính xác ở trên cho thấy mức độ của mỗi nút (hoặc của hầu hết các nút) phải ít nhất là 3. Tôi nên sử dụng loại biểu đồ nào? Làm thế nào tôi nên tạo biểu đồ được sử dụng trong phân loại ngang hàng?

Một thách thức là nếu bạn có các cụm trong biểu đồ, điều này sẽ làm lệch các cấp độ ngang hàng. Ví dụ, chúng tôi sẽ không muốn có các bài tiểu luận chất lượng cao được xếp loại ngang hàng với các bài tiểu luận chất lượng cao, vì điều đó sẽ làm sai lệch kết quả của việc chấm điểm ngang hàng.

Bạn muốn giới thiệu gì?

Tôi nghĩ vấn đề này có thể được mô hình hóa bằng một biểu đồ không bị ảnh hưởng bằng cách sử dụng một cái gì đó như sau:

  • Bắt đầu bằng cách lấy nút với mức độ nhỏ nhất và liên kết nó với mức tối thiểu tiếp theo
  • Tiếp tục cho đến khi mức độ trung bình của bạn ít nhất là 3
  • Tối đa hóa kết nối nút
  • Giảm thiểu số lượng các cửa hàng

Đây có phải là một cách tiếp cận tốt? Nếu không những gì bạn muốn giới thiệu thay thế?


Đây có thể là một ứng dụng thú vị cho các bộ mở rộng . Bạn đã cố gắng sắp xếp các bài tập trong một mở rộng?
Shaull

ý tưởng của bạn về các cạnh có vẻ nửa đúng. các cạnh chỉ cho thấy một so sánh xảy ra, không phải là kết quả của một so sánh. vì vậy chỉ có sự hiện diện / vắng mặt của các cạnh không mã hóa nhiều thông tin, chỉ có sự so sánh đã xảy ra. một cách tự nhiên để xử lý vấn đề liên quan đến các cạnh có trọng số / hướng trong đó hướng là ví dụ về phía được ưa thích ... nó có vẻ tương tự như vấn đề dòng chảy ... bạn nói "thanh trượt", nó có đa trị không? hay nhị phân? "thanh trượt" nghe có vẻ đa dạng đối với tôi, giống như một đánh giá.
vzn

Bạn có thể làm rõ câu hỏi của bạn là gì? Bạn đang hỏi về cách chọn đồ thị? Hoặc bạn đang hỏi về, đưa ra một biểu đồ và một bộ xếp hạng cho mỗi cạnh, làm thế nào để xếp hạng tất cả các bài tiểu luận? Cái trước thuộc danh mục chung của "thiết kế thử nghiệm" (và câu trả lời của tôi giải quyết nó); sau này, trong danh mục chung của "phân tích dữ liệu" (và cả câu trả lời của tôi và câu trả lời của vzn đều cung cấp một số tài nguyên hữu ích cho việc đó).
DW

Trên thực tế, chúng tôi đã tìm ra thứ hạng và tính điểm, nhưng sẽ thử cách tiếp cận dưới đây.
ismail

trong một số phân tích về các vấn đề tương tự, các từ "xếp hạng" và "chấm điểm" có thể hoán đổi cho nhau. bây giờ nó xuất hiện từ đánh giá và chỉnh sửa thêm, trong hệ thống của bạn, bạn gọi "xếp hạng" là ước tính xếp hạng dựa trên máy tính dựa trên dữ liệu so sánh và "chấm điểm" là quyết định chủ quan dựa trên con người về chất lượng bài tiểu luận (cũng thường được gọi là "chấm điểm") theo quy trình xếp hạng. & bạn chủ yếu quan tâm đến việc phân phối các cặp so sánh ...
vzn

Câu trả lời:


7

Có hai phần trong số này: (a) chọn biểu đồ ( thiết kế thử nghiệm ) để xác định cặp bài luận nào học sinh sẽ đánh giá trong quá trình chấm điểm ngang hàng và (b) xếp hạng tất cả các bài tiểu luận, dựa trên điểm ngang hàng của học sinh, xác định giáo viên nào nên xếp hạng. Tôi sẽ đề xuất một số phương pháp cho mỗi.

Chọn biểu đồ

Báo cáo vấn đề. Bước đầu tiên là tạo một biểu đồ. Nói cách khác, bạn cần chọn cặp bài luận nào để trình bày cho học sinh, trong bài tập chấm điểm ngang hàng.

G

d

n

May mắn thay, có những thuật toán được biết đến để làm điều này. Về cơ bản, bạn làm như sau:

  1. 3nn3n3n

  2. n

  3. Tiếp theo, kiểm tra xem đồ thị kết quả có đơn giản không (nghĩa là nó không có vòng lặp tự và không có cạnh lặp lại). Nếu nó không đơn giản, loại bỏ biểu đồ và quay lại bước 1. Nếu nó đơn giản, bạn đã hoàn thành; xuất đồ thị này.

O(1)

Tôi đã thấy cách tiếp cận này được ghi có vào Bollobas, Bender và Canfield. Cách tiếp cận cũng được tóm tắt ngắn gọn trên Wikipedia . Bạn cũng có thể tìm thấy một cuộc thảo luận về bài viết trên blog này .

nnn

Xếp hạng tất cả các bài tiểu luận

Báo cáo vấn đề. OK, vì vậy bây giờ bạn có một biểu đồ, và bạn đã trình bày các cặp bài luận này (như được chỉ ra bởi các cạnh trong biểu đồ) cho các sinh viên để họ chấm điểm trong bài tập chấm điểm. Bạn có kết quả của mỗi so sánh các bài tiểu luận. Bây giờ nhiệm vụ của bạn là suy ra một thứ hạng tuyến tính trên tất cả các bài tiểu luận, để giúp bạn xác định cái nào sẽ được giáo viên đánh giá.

Giải pháp. Tôi đề nghị bạn sử dụng mô hình Bradley-Terry . Đó là một phương pháp toán học giải quyết chính xác vấn đề này. Nó được thiết kế để xếp hạng người chơi trong một số môn thể thao, dựa trên kết quả trận đấu giữa một số cặp người chơi. Nó giả định rằng mỗi người chơi có một sức mạnh (chưa biết), có thể được định lượng như một số thực và xác suất Alice đánh bại Bob được xác định bởi một số chức năng trơn tru của sự khác biệt về sức mạnh của họ. Sau đó, đưa ra các hồ sơ thắng / thua theo cặp, nó ước tính sức mạnh của mỗi người chơi.

Điều này nên hoàn hảo cho bạn. Bạn có thể coi mỗi bài luận như một người chơi. Mỗi so sánh giữa hai bài tiểu luận (trong quá trình chấm điểm ngang hàng) giống như kết quả của một trận đấu giữa chúng. Mô hình Bradley-Terry sẽ cho phép bạn lấy tất cả dữ liệu đó và suy ra một điểm mạnh cho mỗi bài luận, trong đó điểm mạnh cao hơn tương ứng với bài tiểu luận tốt hơn. Bây giờ bạn có thể sử dụng những điểm mạnh đó để sắp xếp thứ tự tất cả các bài tiểu luận.

ij

Có nhiều cách khác nhau để suy ra xếp hạng hoặc thứ hạng cho tất cả các bài tiểu luận, dựa trên dữ liệu bạn có. Ví dụ, phương thức Elo là một phương thức khác. Tôi tóm tắt một vài trong số chúng trong câu trả lời của tôi cho một câu hỏi khác nhau ; đọc câu trả lời đó để biết thêm chi tiết

Một nhận xét khác: Mô hình Bradley-Terry giả định rằng kết quả của mỗi so sánh giữa hai người chơi là thắng hoặc thua (nghĩa là kết quả nhị phân). Tuy nhiên, có vẻ như bạn thực sự sẽ có dữ liệu chi tiết hơn: thanh trượt của bạn sẽ đưa ra ước tính sơ bộ về việc học sinh lớp ngang hàng đánh giá tốt hơn một bài luận so với bài khác. Cách tiếp cận đơn giản nhất là chỉ ánh xạ mỗi thanh trượt đến kết quả nhị phân. Tuy nhiên, nếu bạn thực sự muốn, bạn có thể sử dụng tất cả dữ liệu bằng cách sử dụng phân tích tinh vi hơn. Mô hình Bradley-Terry liên quan đến việc thực hiện hồi quy logistic. Nếu bạn khái quát rằng để sử dụng logit theo thứ tự , tôi cá rằng bạn có thể tận dụng thông tin bổ sung bạn có từ mỗi thanh trượt, cho rằng kết quả từ các thanh trượt không phải là nhị phân mà là một trong nhiều khả năng.

Sử dụng hiệu quả giáo viên

Bạn đề nghị giáo viên tự chấm điểm X% trên cùng và X% dưới cùng của tất cả các bài luận (sử dụng xếp hạng được suy ra từ kết quả chấm điểm ngang hàng). Điều này có thể hoạt động, nhưng tôi nghi ngờ đây không phải là cách sử dụng hiệu quả nhất trong thời gian giới hạn của giáo viên. Thay vào đó, tôi muốn đề xuất một phương pháp thay thế.

Tôi đề nghị bạn nên cho giáo viên lớp một tập hợp các bài tiểu luận, với tập hợp con được chọn cẩn thận để cố gắng cung cấp hiệu chuẩn tốt nhất có thể cho tất cả các bài tiểu luận mà giáo viên không chấm điểm. Đối với điều này, tôi nghĩ rằng nó có thể hữu ích nếu bạn chọn một mẫu bài luận bao gồm nhiều câu trả lời có thể có (vì vậy đối với mỗi bài luận, có một số bài luận được giáo viên xếp loại không quá xa nó). Đối với điều này, tôi có thể nghĩ về hai cách tiếp cận bạn có thể xem xét thử:

  • nkkk

  • kd(ei,ej)eiejSd(e,S)=mineSd(e,e)là khoảng cách từ để bài luận gần nhất trong . Thuật toán đầu tiên ở điểm xa nhất tính toán danh sách tiểu luận, , như sau: là bài luận tối đa hóa (trong số tất cả các bài tiểu luận sao cho ). Thuật toán này tạo ra một tập hợp các tiểu luận rằng như khác nhau từ mỗi khác càng tốt - có nghĩa là mỗi người trong số các bài tiểu luận còn lại là khá giống với ít nhất một trong những . Vì vậy, sẽ là hợp lý khi có giáo viên lớpeSke1,e2,,ekei+1d(e,{e1,e2,,ei})ee{e1,e2,,ei}kkk bài tiểu luận được lựa chọn bởi thuật toán FPF.

Tôi nghi ngờ một trong hai cách tiếp cận này có thể cung cấp điểm chính xác hơn so với việc giáo viên đạt điểm X% cao nhất và X% dưới cùng của bài luận - vì các bài luận tốt nhất và tồi nhất có lẽ không đại diện cho khối lượng bài tiểu luận ở giữa.

Trong cả hai phương pháp, bạn có thể sử dụng hàm khoảng cách tinh vi hơn, có tính đến không chỉ các ước tính sức mạnh dựa trên phân loại ngang hàng mà còn các yếu tố khác có được từ các bài tiểu luận. Hàm khoảng cách đơn giản nhất có thể sẽ chỉ tính đến kết quả của mô hình Terry-Bradley, tức là trong đó là sức mạnh của tiểu luận theo ước tính của mô hình Terry-Bradley dựa trên kết quả chấm điểm ngang hàng. Tuy nhiên, bạn có thể làm một cái gì đó tinh vi hơn. Chẳng hạn, bạn có thể tính khoảng cách chỉnh sửa Levenshtein đã chuẩn hóa giữa bài luận vàd(e1,e2)=(s(e1)s(e2))2s(e)ee1e2(coi chúng là các chuỗi văn bản, tính toán khoảng cách chỉnh sửa và chia cho độ dài lớn hơn của hai) và sử dụng nó như một yếu tố khác trong hàm khoảng cách. Bạn cũng có thể tính toán các vectơ đặc trưng bằng cách sử dụng mô hình túi từ trên các từ trong bài tiểu luận và sử dụng khoảng cách L2 giữa các vectơ đặc trưng này (với các tính năng được chuẩn hóa bằng tf-idf) làm một yếu tố khác trong hàm khoảng cách. Bạn có thể sử dụng hàm khoảng cách là trung bình có trọng số của sự khác biệt về sức mạnh (dựa trên ước tính của Terry-Bradley), khoảng cách chỉnh sửa được chuẩn hóa và bất kỳ thứ gì khác có vẻ hữu ích. Một hàm khoảng cách tinh vi hơn như vậy có thể giúp thực hiện công việc tốt hơn trong việc giúp thuật toán phân cụm chọn ra những bài luận tốt nhất để có điểm giáo viên.k


khó theo dõi so với tuyên bố vấn đề ban đầu. bạn đang giải quyết vấn đề so sánh phân phối đồng đều?
vzn

2
@vzn, tôi đã chỉnh sửa câu trả lời của mình để làm rõ. Câu hỏi dường như đang hỏi về cách chọn biểu đồ, nghĩa là, cặp bài tiểu luận nào để yêu cầu học sinh so sánh trong quá trình chấm điểm. Nửa đầu câu trả lời của tôi đưa ra một giải pháp cho câu hỏi đó. Phần thứ hai trong câu trả lời của tôi mô tả cách sử dụng kết quả của việc chấm điểm ngang hàng để sắp xếp thứ tự tất cả các bài luận, để giúp giáo viên chọn bài luận nào để chấm điểm.
DW

0

một vài ý tưởng dựa trên mô tả không chính xác của bạn về đầu vào và đầu ra và những gì cần tính toán (có thể bạn có thể sửa đổi câu hỏi của mình với ý nghĩ đó).

rõ ràng đây về cơ bản là vấn đề "nóng hay không" "facemash" bắt nguồn từ việc thành lập Facebook (như được miêu tả trong bộ phim "mạng xã hội"). trong "trò chơi" ban đầu, người dùng có hai bức ảnh và chọn giữa nữ hấp dẫn hơn. trong hệ thống của bạn, sự lựa chọn là giữa hai bài tiểu luận, một trong số đó là tốt hơn.

từ văn hóa dân gian gần như rõ ràng thuật toán xếp hạng Elo được sử dụng trong các hệ thống tính điểm trận đấu cờ vua có thể được sử dụng để tính toán một giải pháp hội tụ (trong trường hợp này về cơ bản ước tính số điểm của các bài tiểu luận phù hợp với biểu đồ ưu tiên chỉ đạo được thể hiện), nhưng chưa thấy cẩn thận mô tả / viết lên này.

tùy chọn khác là sử dụng Pagerank. tính toán ảnh hưởng ước tính của một trang dựa trên biểu đồ liên kết được định hướng. tùy chọn cho các bài tiểu luận tương tự như các liên kết đến một trang web.

vấn đề cũng có vẻ tương tự như phân tích trích dẫn trong đó các bài báo khoa học trích dẫn các bài báo khác và ảnh hưởng của các bài báo được ước tính. [nhưng lưu ý Pagerank cũng là một thuật toán hàng đầu trong lĩnh vực này.]

[1] tại sao sử dụng bảng xếp hạng Elo cho thuật toán facemash? stackoverflow

[2] Hệ thống xếp hạng Elo , wikipedia

[3] Pagerank , wikipedia

[4] phân tích trích dẫn , wikipedia


phác họa cách áp dụng Elo: các trận đấu trong trò chơi giống như so sánh tiểu luận. các bài tiểu luận có điểm số và các bài tiểu luận có điểm cao hơn sẽ giành được nhiều trận đấu hơn. thuật toán tính điểm phù hợp nhất với tất cả các trận đấu.
vzn

lưu ý các ý tưởng trích dẫn có xu hướng cho rằng tất cả các phép so sánh được phân phối đều trên tất cả các bài tiểu luận nếu không, nếu một bài luận được so sánh nhiều hơn, nó có thể làm tăng sự thuận lợi tương đối của nó. do đó, một phần của cách tiếp cận đó cũng đang cân bằng các so sánh mà bạn dường như đang đề cập đến, và tương tự như vấn đề cố gắng phân phối các trận đấu trên tất cả người chơi ...
vzn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.