Điều quan trọng là phải đóng khung câu hỏi đúng cách và áp dụng một mô hình khái niệm hữu ích về điểm số.
Câu hỏi
Các ngưỡng gian lận tiềm năng, chẳng hạn như 55, 65 và 85, được biết là một tiên nghiệm độc lập với dữ liệu: chúng không phải được xác định từ dữ liệu. (Do đó, đây không phải là vấn đề phát hiện ngoại lệ cũng không phải là vấn đề phù hợp phân phối.) Bài kiểm tra nên đánh giá bằng chứng cho thấy một số (không phải tất cả) điểm chỉ thấp hơn các ngưỡng này đã được chuyển đến các ngưỡng đó (hoặc, có lẽ, chỉ vượt qua các ngưỡng đó).
Mô hình khái niệm
Đối với mô hình khái niệm, điều quan trọng là phải hiểu rằng điểm số không có khả năng có phân phối bình thường (cũng không có phân phối tham số dễ dàng nào khác). Điều đó là rất rõ ràng trong ví dụ được đăng và trong mọi ví dụ khác từ báo cáo ban đầu. Những điểm số này đại diện cho một hỗn hợp các trường học; ngay cả khi phân phối trong bất kỳ trường học nào là bình thường (chúng không phải), hỗn hợp không có khả năng là bình thường.
Một cách tiếp cận đơn giản chấp nhận rằng có một phân phối điểm thực sự: một cách sẽ được báo cáo ngoại trừ hình thức gian lận đặc biệt này. Do đó, nó là một thiết lập không tham số. Điều đó có vẻ quá rộng, nhưng có một số đặc điểm của phân phối điểm có thể dự đoán hoặc quan sát được trong dữ liệu thực tế:
Tổng số điểm , và sẽ có mối tương quan chặt chẽ với nhau, .i−1ii+11≤i≤99
Sẽ có các biến thể trong các số này xung quanh một số phiên bản trơn tru lý tưởng hóa của phân phối điểm. Những biến thể này thường có kích thước bằng căn bậc hai của số đếm.
Gian lận liên quan đến ngưỡng sẽ không ảnh hưởng đến số lượng của bất kỳ điểm nào . Ảnh hưởng của nó tỷ lệ thuận với số lượng của từng điểm số (số học sinh "có nguy cơ" bị ảnh hưởng bởi gian lận). Đối với điểm dưới ngưỡng này, số sẽ bị giảm bởi một số phần và số tiền này sẽ được thêm vào .ti≥tic(i)δ(t−i)c(i)t(i)
Lượng thay đổi giảm theo khoảng cách giữa điểm và ngưỡng: là hàm giảm của .δ(i)i=1,2,…
Đưa ra một ngưỡng , giả thuyết null (không gian lận) là , ngụ ý giống hệt . Thay thế là .tδ(1)=0δ0δ(1)>0
Xây dựng một bài kiểm tra
Kiểm tra thống kê để sử dụng? Theo các giả định này, (a) hiệu ứng là phụ gia trong số đếm và (b) hiệu ứng lớn nhất sẽ xảy ra ngay xung quanh ngưỡng. Điều này cho thấy việc xem xét sự khác biệt đầu tiên của số đếm, . Xem xét thêm cho thấy sẽ tiến thêm một bước: theo giả thuyết thay thế, chúng tôi hy vọng sẽ thấy một chuỗi các số đếm giảm dần khi điểm số tiến đến ngưỡng từ bên dưới, sau đó (i) một thay đổi tích cực lớn ở theo sau (ii) thay đổi tiêu cực lớn tại . Để tối đa hóa sức mạnh của bài kiểm tra, sau đó, hãy xem xét sự khác biệt thứ hai,c′(i)=c(i+1)−c(i)ittt+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
bởi vì tại điều này sẽ kết hợp sự suy giảm âm lớn với âm của mức tăng dương lớn , do đó làm tăng hiệu ứng gian lận .i=t−1c(t+1)−c(t)c(t)−c(t−1)
Tôi sẽ đưa ra giả thuyết - và điều này có thể được kiểm tra - rằng mối tương quan nối tiếp của các số gần ngưỡng là khá nhỏ. (Tương quan nối tiếp ở nơi khác là không liên quan.) Điều này ngụ ý rằng phương sai của là xấp xỉc′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
Trước đây tôi đã đề xuất rằng cho tất cả (một cái gì đó cũng có thể được kiểm tra). Từ đâuvar(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
nên có khoảng phương sai đơn vị. Đối với các quần thể có số điểm lớn (số được đăng có vẻ là khoảng 20.000), chúng ta cũng có thể mong đợi một phân phối xấp xỉ Bình thường của . Vì chúng tôi mong đợi một giá trị âm rất cao để biểu thị kiểu gian lận, chúng tôi dễ dàng có được thử nghiệm về kích thước : viết cho cdf của phân phối chuẩn, loại bỏ giả thuyết không gian lận ở ngưỡng khi .c′′(t−1)αΦtΦ(z)<α
Thí dụ
Ví dụ, hãy xem xét tập hợp các điểm kiểm tra thực sự này , được rút ra từ một hỗn hợp gồm ba bản phân phối Bình thường:
Để làm điều này, tôi đã áp dụng một lịch trình gian lận ở ngưỡng được xác định bởi . Điều này tập trung hầu hết tất cả các gian lận vào một hoặc hai điểm ngay dưới 65:t=65δ(i)=exp(−2i)
Để hiểu được bài kiểm tra làm gì, tôi đã tính cho mọi điểm, không chỉ và vẽ nó so với điểm:zt
(Trên thực tế, để tránh những rắc rối với số lượng nhỏ, trước tiên tôi đã thêm 1 vào mỗi số đếm từ 0 đến 100 để tính mẫu số của .)z
Biến động gần 65 là rõ ràng, cũng như xu hướng cho tất cả các dao động khác có kích thước khoảng 1, phù hợp với các giả định của thử nghiệm này. Thống kê kiểm tra là với giá trị p tương ứng là , một kết quả cực kỳ quan trọng. So sánh trực quan với con số trong chính câu hỏi cho thấy thử nghiệm này sẽ trả về giá trị p ít nhất là nhỏ.z=−4.19Φ(z)=0.0000136
(Tuy nhiên, xin lưu ý rằng bản thân bài kiểm tra không sử dụng cốt truyện này, được hiển thị để minh họa cho các ý tưởng. Bài kiểm tra chỉ nhìn vào giá trị được vẽ ở ngưỡng, không ở đâu khác. Tuy nhiên, sẽ là một cách tốt để tạo ra một âm mưu như vậy để xác nhận rằng thống kê kiểm tra thực sự đã vượt qua các ngưỡng dự kiến là địa điểm gian lận và tất cả các điểm số khác không phải chịu những thay đổi như vậy. Ở đây, chúng tôi thấy rằng ở tất cả các điểm khác có sự dao động trong khoảng -2 và 2, nhưng hiếm khi cũng vậy, lưu ý rằng người ta không thực sự cần tính độ lệch chuẩn của các giá trị trong biểu đồ này để tính , do đó tránh được các vấn đề liên quan đến hiệu ứng gian lận làm tăng sự dao động ở nhiều vị trí.)z
Khi áp dụng thử nghiệm này cho nhiều ngưỡng, điều chỉnh Bonferroni về kích thước thử nghiệm sẽ là khôn ngoan. Điều chỉnh bổ sung khi áp dụng cho nhiều bài kiểm tra cùng một lúc cũng sẽ là một ý tưởng tốt.
Đánh giá
Quy trình này không thể nghiêm túc được đề xuất để sử dụng cho đến khi nó được thử nghiệm trên dữ liệu thực tế. Một cách tốt sẽ là lấy điểm cho một bài kiểm tra và sử dụng điểm số không quan trọng cho bài kiểm tra làm ngưỡng. Có lẽ một ngưỡng như vậy đã không phải chịu hình thức gian lận này. Mô phỏng gian lận theo mô hình khái niệm này và nghiên cứu phân phối mô phỏng của . Điều này sẽ cho biết (a) các giá trị p có chính xác không và (b) sức mạnh của phép thử để chỉ ra hình thức mô phỏng gian lận. Thật vậy, người ta có thể sử dụng một nghiên cứu mô phỏng như vậy trên chính dữ liệu mà người ta đang đánh giá, cung cấp một cách kiểm tra cực kỳ hiệu quả xem thử nghiệm có phù hợp hay không và sức mạnh thực sự của nó là gì. Vì thống kê kiểm trazz rất đơn giản, các mô phỏng sẽ có thể thực hiện được và nhanh chóng thực hiện.