CÂU HỎI:
Tôi có dữ liệu nhị phân về các đề thi (đúng / không chính xác). Một số cá nhân có thể đã có quyền truy cập trước vào một tập hợp các câu hỏi và câu trả lời đúng của họ. Tôi không biết ai, bao nhiêu, hay cái nào. Nếu không có gian lận, giả sử tôi sẽ mô hình xác suất trả lời đúng cho mục là , trong đó đại diện cho độ khó của câu hỏi và là khả năng tiềm ẩn của từng cá nhân. Đây là mô hình phản hồi mục rất đơn giản có thể được ước tính bằng các hàm như ltm's rasch () trong R. Ngoài các ước tính (trong đó chỉ mục các cá nhân) của biến tiềm ẩn, tôi có quyền truy cập vào các ước tính riêng biệtz j j q j của cùng một biến tiềm ẩn được lấy từ một tập dữ liệu khác trong đó gian lận là không thể.
Mục tiêu là xác định những cá nhân có khả năng lừa dối và những món đồ mà họ gian lận. Một số cách tiếp cận bạn có thể thực hiện là gì? Ngoài dữ liệu thô, , và đều có sẵn, mặc dù hai cái đầu tiên sẽ có một số sai lệch do gian lận. Lý tưởng nhất, giải pháp sẽ đến dưới dạng phân cụm / phân loại xác suất, mặc dù điều này là không cần thiết. Ý tưởng thực tế được hoan nghênh như là cách tiếp cận chính thức. z j q j
Cho đến nay, tôi đã so sánh tương quan điểm số câu hỏi của các cặp cá nhân có điểm cao hơn so với thấp hơn điểm (trong đó là một chỉ số sơ bộ về xác suất mà họ gian lận). Ví dụ: tôi đã sắp xếp các cá nhân theo và sau đó vẽ sơ đồ tương quan của các cặp câu hỏi liên tiếp của các cá nhân. Tôi cũng đã thử vẽ biểu đồ tương quan trung bình của điểm số cho các cá nhân có giá trị lớn hơn số lượng của , như là một hàm của . Không có mô hình rõ ràng cho một trong hai cách tiếp cận. q j - z j q j - z j q j - z jnth q j - z jn
CẬP NHẬT:
Cuối cùng tôi đã kết hợp các ý tưởng từ @SheldonCooper và bài báo Freakonomics hữu ích mà @whuber chỉ cho tôi. Ý tưởng / ý kiến / phê bình khác hoan nghênh.
Đặt là điểm số nhị phân của người trên câu hỏi . Ước tính mô hình phản hồi vật phẩm trong đó là tham số độ dễ của vật phẩm và là biến khả năng tiềm ẩn. (Một mô hình phức tạp hơn có thể được thay thế; 'Tôi đang sử dụng 2PL trong ứng dụng của mình). Như tôi đã đề cập trong bài viết gốc của mình, tôi có ước tính của biến khả năng từ một tập dữ liệu riêng biệt (các mục khác nhau, cùng một người) trên mà gian lận là không thể. Cụ thể, là ước tính Bayes theo kinh nghiệm từ cùng một mô hình phản hồi vật phẩm như trên. j i l o g i t ( P r ( X i j = 1 | z j ) = β i + z j , β i z j ^ q j { y i j } ^ q j
Xác suất của điểm số quan sát , có điều kiện về mức độ dễ dàng của vật phẩm và khả năng của người, có thể được viết trong đó là xác suất dự đoán của một phản hồi chính xác và là logit nghịch đảo. Sau đó, có điều kiện về các đặc điểm của vật phẩm và con người, xác suất chung mà người có các quan sát là và tương tự, xác suất chung mà vật phẩm có các quan sát p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xPij( ^ β i , ^ q j )=ilogit( ^ β i + ^ q j )ilogitjxjpj= ∏ ipij,ixipi= ∏ jpij.
Một bước bổ sung mà tôi đã thử là lấy r% của những người ít có khả năng nhất (tức là những người có r% giá trị p_j được sắp xếp thấp nhất), tính khoảng cách trung bình giữa điểm số quan sát của họ x_j (nên tương quan với những người có r thấp là những kẻ gian lận có thể) và vẽ nó cho r = 0,001, 0,002, ..., 1.000. Khoảng cách trung bình tăng cho r = 0,001 đến r = 0,025, đạt mức tối đa và sau đó giảm từ từ xuống mức tối thiểu tại r = 1. Không chính xác như những gì tôi đã hy vọng.