Làm thế nào để chính thức kiểm tra một bản break break trong một bản phân phối bình thường (hoặc khác)


10

Nó thường xuất hiện trong khoa học xã hội rằng các biến nên được phân phối theo một cách nào đó, nói một cách bình thường, cuối cùng có sự gián đoạn trong phân phối của chúng xung quanh các điểm nhất định.

Ví dụ, nếu có các điểm cắt cụ thể như "vượt qua / thất bại" và nếu các biện pháp này bị biến dạng, có thể có sự gián đoạn tại thời điểm đó.

Một ví dụ nổi bật (được trích dẫn dưới đây) là điểm kiểm tra tiêu chuẩn của học sinh thường được phân phối cơ bản ở mọi nơi trừ 60% trong đó có rất ít khối lượng từ 50-60% và khối lượng vượt quá khoảng 60-65%. Điều này xảy ra trong trường hợp giáo viên chấm bài kiểm tra học sinh của mình. Các tác giả điều tra xem các giáo viên có thực sự giúp học sinh vượt qua các kỳ thi.

Bằng chứng thuyết phục nhất mà không nghi ngờ gì đến từ việc hiển thị các biểu đồ của đường cong hình chuông với sự gián đoạn lớn xung quanh các điểm cắt khác nhau cho các thử nghiệm khác nhau. Tuy nhiên, làm thế nào bạn sẽ phát triển một bài kiểm tra thống kê? Họ đã thử nội suy và sau đó so sánh phân số trên hoặc dưới và kiểm tra t trên phân số 5 điểm trên và dưới ngưỡng. Trong khi hợp lý, đây là ad-hoc. Bất cứ ai có thể nghĩ về bất cứ điều gì tốt hơn?

Liên kết: Các quy tắc và quyền quyết định trong việc đánh giá học sinh và trường học: Trường hợp của kỳ thi Regent New York http: //www.econ.ber siêu.edu / ~ jmccrary / nys_regents_djmr_feb_23_2011.pdf

Phân phối điểm kiểm tra, các điểm có thể thao tác trong màu đen, lưu ý mật độ giảm mạnh dưới ngưỡng và mức tăng tương ứng ở trên


Chỉ cần làm rõ - bạn đang kiểm tra sự thiếu chung chung, ví dụ: Normality hoặc cho sự hiện diện của sự gián đoạn tại một điểm được chỉ định trước? Ví dụ của bạn là về sau, nhưng tất nhiên bất kỳ bài kiểm tra sức khỏe nào phù hợp, ví dụ: Anderson-Darling hoặc Shapiro-Wilk cho Normality sẽ phục vụ, mặc dù với một giải pháp thay thế đặc biệt cao, bạn có thể xây dựng các bài kiểm tra mạnh mẽ hơn. Ngoài ra, trong biểu đồ của bạn ở trên, rõ ràng bạn có một mẫu hàng ngàn; điều này cũng sẽ là điển hình?
jbowman

Câu trả lời:


6

Điều quan trọng là phải đóng khung câu hỏi đúng cách và áp dụng một mô hình khái niệm hữu ích về điểm số.

Câu hỏi

Các ngưỡng gian lận tiềm năng, chẳng hạn như 55, 65 và 85, được biết là một tiên nghiệm độc lập với dữ liệu: chúng không phải được xác định từ dữ liệu. (Do đó, đây không phải là vấn đề phát hiện ngoại lệ cũng không phải là vấn đề phù hợp phân phối.) Bài kiểm tra nên đánh giá bằng chứng cho thấy một số (không phải tất cả) điểm chỉ thấp hơn các ngưỡng này đã được chuyển đến các ngưỡng đó (hoặc, có lẽ, chỉ vượt qua các ngưỡng đó).

Mô hình khái niệm

Đối với mô hình khái niệm, điều quan trọng là phải hiểu rằng điểm số không có khả năng có phân phối bình thường (cũng không có phân phối tham số dễ dàng nào khác). Điều đó là rất rõ ràng trong ví dụ được đăng và trong mọi ví dụ khác từ báo cáo ban đầu. Những điểm số này đại diện cho một hỗn hợp các trường học; ngay cả khi phân phối trong bất kỳ trường học nào là bình thường (chúng không phải), hỗn hợp không có khả năng là bình thường.

Một cách tiếp cận đơn giản chấp nhận rằng có một phân phối điểm thực sự: một cách sẽ được báo cáo ngoại trừ hình thức gian lận đặc biệt này. Do đó, nó là một thiết lập không tham số. Điều đó có vẻ quá rộng, nhưng có một số đặc điểm của phân phối điểm có thể dự đoán hoặc quan sát được trong dữ liệu thực tế:

  1. Tổng số điểm , và sẽ có mối tương quan chặt chẽ với nhau, .i1ii+11i99

  2. Sẽ có các biến thể trong các số này xung quanh một số phiên bản trơn tru lý tưởng hóa của phân phối điểm. Những biến thể này thường có kích thước bằng căn bậc hai của số đếm.

  3. Gian lận liên quan đến ngưỡng sẽ không ảnh hưởng đến số lượng của bất kỳ điểm nào . Ảnh hưởng của nó tỷ lệ thuận với số lượng của từng điểm số (số học sinh "có nguy cơ" bị ảnh hưởng bởi gian lận). Đối với điểm dưới ngưỡng này, số sẽ bị giảm bởi một số phần và số tiền này sẽ được thêm vào .titic(i)δ(ti)c(i)t(i)

  4. Lượng thay đổi giảm theo khoảng cách giữa điểm và ngưỡng: là hàm giảm của .δ(i)i=1,2,

Đưa ra một ngưỡng , giả thuyết null (không gian lận) là , ngụ ý giống hệt . Thay thế là .tδ(1)=0δ0δ(1)>0

Xây dựng một bài kiểm tra

Kiểm tra thống kê để sử dụng? Theo các giả định này, (a) hiệu ứng là phụ gia trong số đếm và (b) hiệu ứng lớn nhất sẽ xảy ra ngay xung quanh ngưỡng. Điều này cho thấy việc xem xét sự khác biệt đầu tiên của số đếm, . Xem xét thêm cho thấy sẽ tiến thêm một bước: theo giả thuyết thay thế, chúng tôi hy vọng sẽ thấy một chuỗi các số đếm giảm dần khi điểm số tiến đến ngưỡng từ bên dưới, sau đó (i) một thay đổi tích cực lớn ở theo sau (ii) thay đổi tiêu cực lớn tại . Để tối đa hóa sức mạnh của bài kiểm tra, sau đó, hãy xem xét sự khác biệt thứ hai,c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

bởi vì tại điều này sẽ kết hợp sự suy giảm âm lớn với âm của mức tăng dương lớn , do đó làm tăng hiệu ứng gian lận .i=t1c(t+1)c(t)c(t)c(t1)

Tôi sẽ đưa ra giả thuyết - và điều này có thể được kiểm tra - rằng mối tương quan nối tiếp của các số gần ngưỡng là khá nhỏ. (Tương quan nối tiếp ở nơi khác là không liên quan.) Điều này ngụ ý rằng phương sai của là xấp xỉc(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Trước đây tôi đã đề xuất rằng cho tất cả (một cái gì đó cũng có thể được kiểm tra). Từ đâuvar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

nên có khoảng phương sai đơn vị. Đối với các quần thể có số điểm lớn (số được đăng có vẻ là khoảng 20.000), chúng ta cũng có thể mong đợi một phân phối xấp xỉ Bình thường của . Vì chúng tôi mong đợi một giá trị âm rất cao để biểu thị kiểu gian lận, chúng tôi dễ dàng có được thử nghiệm về kích thước : viết cho cdf của phân phối chuẩn, loại bỏ giả thuyết không gian lận ở ngưỡng khi .c(t1)αΦtΦ(z)<α

Thí dụ

Ví dụ, hãy xem xét tập hợp các điểm kiểm tra thực sự này , được rút ra từ một hỗn hợp gồm ba bản phân phối Bình thường:

Biểu đồ điểm số thật

Để làm điều này, tôi đã áp dụng một lịch trình gian lận ở ngưỡng được xác định bởi . Điều này tập trung hầu hết tất cả các gian lận vào một hoặc hai điểm ngay dưới 65:t=65δ(i)=exp(2i)

Biểu đồ điểm số sau khi gian lận

Để hiểu được bài kiểm tra làm gì, tôi đã tính cho mọi điểm, không chỉ và vẽ nó so với điểm:zt

Lô Z

(Trên thực tế, để tránh những rắc rối với số lượng nhỏ, trước tiên tôi đã thêm 1 vào mỗi số đếm từ 0 đến 100 để tính mẫu số của .)z

Biến động gần 65 là rõ ràng, cũng như xu hướng cho tất cả các dao động khác có kích thước khoảng 1, phù hợp với các giả định của thử nghiệm này. Thống kê kiểm tra là với giá trị p tương ứng là , một kết quả cực kỳ quan trọng. So sánh trực quan với con số trong chính câu hỏi cho thấy thử nghiệm này sẽ trả về giá trị p ít nhất là nhỏ.z=4.19Φ(z)=0.0000136

(Tuy nhiên, xin lưu ý rằng bản thân bài kiểm tra không sử dụng cốt truyện này, được hiển thị để minh họa cho các ý tưởng. Bài kiểm tra chỉ nhìn vào giá trị được vẽ ở ngưỡng, không ở đâu khác. Tuy nhiên, sẽ là một cách tốt để tạo ra một âm mưu như vậy để xác nhận rằng thống kê kiểm tra thực sự đã vượt qua các ngưỡng dự kiến ​​là địa điểm gian lận và tất cả các điểm số khác không phải chịu những thay đổi như vậy. Ở đây, chúng tôi thấy rằng ở tất cả các điểm khác có sự dao động trong khoảng -2 và 2, nhưng hiếm khi cũng vậy, lưu ý rằng người ta không thực sự cần tính độ lệch chuẩn của các giá trị trong biểu đồ này để tính , do đó tránh được các vấn đề liên quan đến hiệu ứng gian lận làm tăng sự dao động ở nhiều vị trí.)z

Khi áp dụng thử nghiệm này cho nhiều ngưỡng, điều chỉnh Bonferroni về kích thước thử nghiệm sẽ là khôn ngoan. Điều chỉnh bổ sung khi áp dụng cho nhiều bài kiểm tra cùng một lúc cũng sẽ là một ý tưởng tốt.

Đánh giá

Quy trình này không thể nghiêm túc được đề xuất để sử dụng cho đến khi nó được thử nghiệm trên dữ liệu thực tế. Một cách tốt sẽ là lấy điểm cho một bài kiểm tra và sử dụng điểm số không quan trọng cho bài kiểm tra làm ngưỡng. Có lẽ một ngưỡng như vậy đã không phải chịu hình thức gian lận này. Mô phỏng gian lận theo mô hình khái niệm này và nghiên cứu phân phối mô phỏng của . Điều này sẽ cho biết (a) các giá trị p có chính xác không và (b) sức mạnh của phép thử để chỉ ra hình thức mô phỏng gian lận. Thật vậy, người ta có thể sử dụng một nghiên cứu mô phỏng như vậy trên chính dữ liệu mà người ta đang đánh giá, cung cấp một cách kiểm tra cực kỳ hiệu quả xem thử nghiệm có phù hợp hay không và sức mạnh thực sự của nó là gì. Vì thống kê kiểm trazz rất đơn giản, các mô phỏng sẽ có thể thực hiện được và nhanh chóng thực hiện.


Thử nghiệm này cần được điều chỉnh một chút vì kỳ vọng của là (xấp xỉ) tỷ lệ với đạo hàm thứ hai của phân phối. Trong ví dụ, khi ngưỡng gần một chế độ, đạo hàm thứ hai gần bằng 0 nên không có vấn đề gì, nhưng đối với ngưỡng ở khu vực có độ cong cao (khoảng 70 hoặc 90 trong dữ liệu mô phỏng) thì điều chỉnh có thể là nguyên liệu. Nếu tôi có cơ hội tôi sẽ chỉnh sửa câu trả lời này cho phù hợp. z
whuber

1

Tôi đề nghị điều chỉnh một mô hình dự đoán rõ ràng các mức giảm và sau đó cho thấy rằng nó phù hợp với dữ liệu tốt hơn đáng kể so với mô hình ngây thơ.

Bạn cần hai thành phần:

  • phân phối ban đầu của điểm số,
  • thủ tục kiểm tra lại (trung thực hay không) điểm số khi một điểm phù hợp dưới ngưỡng.

Một mô hình có thể có cho một ngưỡng (giá trị ) là như sau: trong đót

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - phân phối xác suất của điểm số cuối cùng,
  • pinitial(s) - phân phối xác suất nếu không có ngưỡng,
  • m(st) - xác suất của điểm thao túng thành điểm vượt qua ,st
  • δ(s=t) là delta Kronecker, tức là 1 nếu và 0 nếu không.s=t

Thông thường, bạn không thể tăng điểm nhiều. Tôi nghi ngờ sự phân rã theo cấp số nhân , trong đó là tỷ lệ của điểm số được kiểm tra lại (thao túng).m(st)aqtsa

Là phân phối ban đầu, bạn có thể thử sử dụng phân phối Poisson hoặc Gaussian. Tất nhiên sẽ là lý tưởng khi có cùng một bài kiểm tra nhưng đối với một nhóm giáo viên cung cấp các ngưỡng và cho nhóm kia - không có ngưỡng.

Nếu có nhiều ngưỡng hơn thì người ta có thể áp dụng cùng một công thức nhưng với sự điều chỉnh cho mỗi . Có lẽ cũng sẽ khác (ví dụ như sự khác biệt giữa fail-pass có thể quan trọng hơn là giữa hai lớp vượt qua).tiai

Ghi chú:

  • Đôi khi có các thủ tục kiểm tra lại nếu có ngay dưới lớp. Sau đó, khó khăn hơn để nói trường hợp nào là trung thực và trường hợp nào - không.
  • m(st) chắc chắn sẽ phụ thuộc vào loại thử nghiệm. Ví dụ: nếu có câu hỏi mở, thì một số câu trả lời có thể mơ hồ và số lượng câu hỏi phụ thuộc vào (vì vậy đối với điểm thấp, có thể dễ dàng tăng điểm hơn). Trong khi đó đối với bài kiểm tra lựa chọn đóng sẽ có ít hoặc không có sự khác biệt về số lượng câu trả lời đúng và không chính xác.s
  • Đôi khi, điểm số 'được sửa' có thể cao hơn - thay vì lý tưởng hóa người ta có thể cắm sth khác nhau.tδ(s=t)

Tôi không chắc rằng câu trả lời chính xác cho câu hỏi của tôi. Trong trường hợp này, chúng tôi không có khả năng kiểm tra lại bất kỳ bài kiểm tra nào. Tất cả những gì được quan sát là một phân phối điểm cuối cùng. Việc phân phối chủ yếu là bình thường. Ngoại trừ, xung quanh một điểm cắt nhất định mà chúng tôi nghi ngờ thao túng, có một sự phá vỡ trong đường cong bình thường. Nếu null là đường cong sẽ "trơn tru" tại thời điểm đó, làm thế nào chúng ta có thể kiểm tra nó dựa trên một giả thuyết thay thế trong đó nó là "gập ghềnh"
d_a_c321

Tôi nghĩ rằng tôi nhấn mạnh câu hỏi. Quan điểm của tôi là: điều chỉnh Gaussian (2 tham số) và tính , sau đó điều chỉnh (2 tham số cho tham số Gaussian + (t + 1) cho các ngưỡng) và tính của nó . Tính toán độ mịn (ví dụ: ở dạng ) có thể thú vị nhưng điều quan trọng là phải kiểm tra các giả định cơ bản và vv ( ví dụ: đối với các bài kiểm tra có rất nhiều câu hỏi cho 2 điểm có thể có độ răng cưa "ban đầu" khá cao). Nếu một người có quyền truy cập vào dữ liệu thô (tức là tất cả các câu trả lời, không chỉ tổng số điểm) thì thậm chí còn có nhiều chỗ hơn để kiểm tra ...X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal

1

Tôi sẽ chia vấn đề này thành hai bài toán con:

  • Ước tính các tham số của phân phối để phù hợp với dữ liệu
  • Thực hiện phát hiện ngoại lệ bằng cách sử dụng phân phối được trang bị

Có nhiều cách khác nhau để giải quyết một trong các bài toán con.

Dường như với tôi rằng một bản phân phối Poisson sẽ phù hợp với dữ liệu, nếu nó được phân phối độc lập và giống hệt nhau (iid) , tất nhiên chúng tôi nghĩ rằng nó không phải là. Nếu chúng ta ngây thơ cố gắng ước tính các tham số của phân phối, chúng ta sẽ bị sai lệch bởi các ngoại lệ. Hai cách có thể để khắc phục điều này là sử dụng các kỹ thuật Hồi quy mạnh mẽ hoặc phương pháp heuristic như xác nhận chéo.

Đối với việc phát hiện ngoại lệ, một lần nữa có rất nhiều cách tiếp cận. Đơn giản nhất là sử dụng khoảng tin cậy từ phân phối mà chúng tôi đã trang bị trong giai đoạn 1. Các phương pháp khác bao gồm các phương pháp bootstrap và phương pháp Monte-Carlo.

Mặc dù điều này sẽ không cho bạn biết rằng có một "bước nhảy" trong phân phối, nhưng nó sẽ cho bạn biết liệu có nhiều ngoại lệ hơn dự kiến ​​cho kích thước mẫu hay không.

Một cách tiếp cận phức tạp hơn sẽ là xây dựng các mô hình khác nhau cho dữ liệu, chẳng hạn như phân phối hỗn hợp và sử dụng một số phương pháp so sánh mô hình (AIC / BIC) để xác định mô hình nào phù hợp nhất với dữ liệu. Tuy nhiên nếu bạn chỉ đơn giản là tìm kiếm "độ lệch so với phân phối dự kiến" thì điều này có vẻ như quá mức cần thiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.