Giả sử tôi có 400 sinh viên (đó là trong một trường đại học lớn) phải làm một dự án khoa học máy tính, và họ phải làm việc một mình (không có nhóm sinh viên). Một ví dụ về dự án có thể là "thực hiện thuật toán biến đổi phạm vi nhanh trong fortran" (tôi biết, điều đó không có vẻ gợi cảm nhưng điều đó làm cho câu hỏi của tôi đơn giản hơn). Tôi là người sửa lỗi và tôi muốn gửi các thói quen để kiểm tra xem có nhóm nào sinh viên đã đề xuất thực hiện "quá giống với văn bản thực sự độc lập" hay không.
Đây là tìm kiếm không giám sát cho các cụm. Tôi nghĩ rằng câu hỏi là về việc sử dụng thuộc tính nào hơn là sử dụng thuật toán phân cụm. Điều đầu tiên tôi sẽ làm là một biểu đồ bằng chữ cái. Lý tưởng nhất, vì những kẻ gian lận thông minh hơn thế, cuối cùng tôi cũng sẽ thử các hoán vị ngẫu nhiên của các chữ cái để xem liệu có phù hợp với biểu đồ của chữ cái (có hoán vị) không. Ngoài ra, những người không khám phá cấu trúc của mã, chỉ phân phối biên của các chữ cái ... bạn có giải pháp nào? Có phần mềm hoặc gói hiện có dành riêng cho vấn đề đó không? (thực ra ngày xưa, các giáo viên khoa học máy tính của tôi tuyên bố họ có loại công cụ đó, nhưng bây giờ tôi nghi ngờ rằng họ có một cái gì đó rất đơn giản)
Tôi đoán luật sư từ sự phát triển phần mềm cũng có loại vấn đề đó (không phải với 1000 sinh viên, nhưng với 2 mã lớn ... điều này làm cho mọi thứ khó khăn hơn)?