Công thức tiên tri Spearman-Brown bị ảnh hưởng bởi các câu hỏi về những khó khăn khác nhau như thế nào?

Các kết quả của công thức tiên tri Spearman-Brown bị ảnh hưởng như thế nào khi có các câu hỏi kiểm tra về những khó khăn khác nhau hoặc những người đánh giá là những học sinh dễ hoặc khó. Một văn bản tôn trọng nói rằng SB bị ảnh hưởng, nhưng không cung cấp chi tiết. (Xem trích dẫn dưới đây.)

Guion, R. M (2011). Đánh giá, Đo lường và Dự đoán cho các Quyết định Nhân sự, tái bản lần thứ 2. PGS 477

"Độ tin cậy có thể tăng lên bằng cách gộp nhóm, sử dụng phương trình Spearman-Brown. ... Nếu độ tin cậy của một xếp hạng là 0,5, thì độ tin cậy của hai, bốn hoặc sáu xếp hạng song song sẽ xấp xỉ 0,67, 0,80 và .86, tương ứng "(Houston, Raymond, & Svec, 1991, trang 409). Tôi thích trích dẫn này vì từ này nhận ra rằng các ước tính thống kê là các tuyên bố "trên trung bình" về những gì có thể được mong đợi nếu tất cả diễn ra như giả định. Ngoài ra, từ hoạt động là song song. Xếp hạng trung bình (hoặc sử dụng Spearman-Brown) nếu một người đánh giá, chẳng hạn, khoan dung một cách có hệ thống, đơn giản là không phù hợp với giả định. Nếu các bài tiểu luận được đánh giá bởi hai người xếp loại, một người khoan dung hơn người khác, thì vấn đề giống như việc sử dụng hai bài kiểm tra trắc nghiệm có độ khó không bằng nhau (dạng không đối xứng). Điểm số dựa trên các hình thức kiểm tra khác nhau (không tương đương) không thể so sánh được. Vì vậy, đó là với việc trộn các con chuột khoan hồng và khó khăn; độ tin cậy của các xếp hạng gộp được ước tính không chính xác bởi phương trình Spearman-Brown của lý thuyết kiểm tra cổ điển. Vấn đề sẽ tồi tệ hơn nếu mỗi thẩm phán định nghĩa một cấu trúc khác nhau một chút. "

reliability psychometrics

— Joel W.
nguồn

Tôi nghĩ rằng vấn đề với việc tìm kiếm một nguồn đáng tin cậy là câu trả lời xuất phát từ lý thuyết kiểm tra và thật rõ ràng nếu bạn hiểu lý thuyết cơ bản, và đặc biệt là những hạn chế về khả năng đánh giá độ tin cậy của chúng tôi. Đó là lý do tại sao Guion không bận tâm để giải thích nó. Nhưng dù sao cũng may mắn trong tìm kiếm của bạn - có lẽ ai đó, ở đâu đó biết về một lời giải thích tốt hơn.

— Jeremy Miles

Câu trả lời:

Mặc dù tôi cảm thấy một chút ngượng ngùng mâu thuẫn với cả một "văn bản được tôn trọng" cũng như một người dùng CV khác, nhưng đối với tôi, công thức Spearman-Brown không bị ảnh hưởng bởi các mục có độ khó khác nhau. Để chắc chắn, công thức Spearman-Brown thường xuất phát theo giả định rằng chúng ta có các mục song song , ngụ ý (trong số những thứ khác) rằng các mục có độ khó tương đương. Nhưng hóa ra giả định này là không cần thiết; nó có thể được nới lỏng để cho phép những khó khăn không đồng đều, và công thức Spearman-Brown vẫn sẽ được giữ vững. Tôi chứng minh điều này dưới đây.

$X$ $T$ $E$

X = T + E,

$X = T + E,$

T

$T$

E

$E$

X

$X$

X^{'}

$X'$

T = T^{'} var (E) = var (E^{'}) .

$T=T' \\\textrm{var}(E)=\textrm{var}(E').$

T = T^{'} + c^{'} var (E) = var (E^{'}) .

$T=T' + c' \\\textrm{var}(E)=\textrm{var}(E').$

c^{'} > 0

$c'>0$

X

$X$

X^{'}

$X'$

X

$X$

X^{'}

$X'$

$k$ $\rho = \sigma^2_T/(\sigma^2_T+\sigma^2_E)$ $\sigma^2_T$ $\sigma^2_E$

\begin{aligned} var (\sum_{i = 1}^{k} T_{i} + E_{i}) & = var (\sum_{i = 1}^{k} T + c_{i} + E_{i}) \\ = k^{2} σ_{T}^{2} + k σ_{E}^{2}, \end{aligned}

$\begin{aligned} \textrm{var}(\sum_{i=1}^kT_i + E_i) &= \textrm{var}(\sum_{i=1}^kT + c_i + E_i) \\ &= k^2\sigma^2_T + k\sigma^2_E, \end{aligned}$

T

$T$

σ_{T}^{2}

$\sigma^2_T$

σ_{E}^{2}

$\sigma^2_E$

\begin{aligned} \frac{k^{2} σ_{T}^{2}}{k^{2} σ_{T}^{2} + k σ_{E}^{2}} & = \frac{k σ_{T}^{2}}{k σ_{T}^{2} + σ_{X}^{2} - σ_{T}^{2}} \\ = \frac{k ρ}{1 + (k - 1) ρ}, \end{aligned}

$\begin{aligned} \frac{k^2\sigma^2_T}{k^2\sigma^2_T + k\sigma^2_E} &= \frac{k\sigma^2_T}{k\sigma^2_T + \sigma^2_X - \sigma^2_T} \\&= \frac{k\rho}{1+(k-1)\rho}, \end{aligned}$

@JeremyMiles nêu lên một số điểm thú vị và quan trọng về những gì có thể xảy ra khi chúng ta tăng thời lượng thử nghiệm "trong thế giới thực", nhưng ít nhất là theo các giả định lý tưởng hóa của lý thuyết kiểm tra cổ điển, sự khác biệt về độ khó của vật phẩm không quan trọng đối với độ tin cậy của hình thức kiểm tra (trái ngược hoàn toàn với các giả định của Lý thuyết đáp ứng vật phẩm hiện đại!). Chính lý luận cơ bản này cũng là lý do tại sao chúng ta thường nói về tương đương tau thiết yếu thay vì tương đương tau, bởi vì hầu hết tất cả các kết quả quan trọng đều phù hợp với trường hợp nhẹ nhàng hơn, trong đó khó khăn về vật phẩm (nghĩa là) có thể khác nhau.

— Jake Westfall
nguồn

Vâng, điểm tốt. Những gì tôi viết không nhất thiết phải giữ.

— Jeremy Miles

Thật không dễ để nói.

Đầu tiên, Spearman-Brown giả định rằng các vật phẩm thử nghiệm (hoặc các con chuột) được lấy mẫu ngẫu nhiên từ một quần thể vật phẩm thử nghiệm (hoặc các con chuột). Điều này không bao giờ thực sự đúng, đặc biệt là các bài kiểm tra, vì tạo ra nhiều vật phẩm là khó và có thể bạn sẽ sử dụng những vật phẩm tốt hơn để bắt đầu - sau đó bạn sẽ thấy rằng bài kiểm tra cần phải dài hơn, vì vậy bạn sẽ 'cạo thùng' cho các mặt hàng.

Thứ hai, các mục khác nhau về độ tin cậy của chúng và độ tin cậy không nhất thiết liên quan đến độ khó (nếu có ích, hãy nghĩ đến độ dốc và chặn đường cong đặc tính của vật phẩm trong lý thuyết phản hồi của vật phẩm). Tuy nhiên, tính toán độ tin cậy (giả sử Cronbach's alpha, một dạng tương quan giữa các lớp) cho rằng các độ tin cậy đều bằng nhau (họ giả sử một mô hình đo lường tương đương tau thiết yếu - nghĩa là, độ tin cậy không đạt tiêu chuẩn của từng mặt hàng là tất cả công bằng). Điều đó gần như chắc chắn sai. Thêm các mục có thể đi lên, có thể đi xuống. Nó phụ thuộc vào các mặt hàng.

Đây là một cách khác để nghĩ về nó. Tôi chọn ngẫu nhiên một mẫu từ dân số, và tính trung bình và sai số chuẩn của giá trị trung bình. Điều đó có nghĩa là một công cụ ước tính không thiên vị của dân số có nghĩa. Sau đó, tôi tăng kích thước mẫu của mình - giá trị trung bình dự kiến là như nhau, nhưng không chắc là nó sẽ thực sự giống nhau - nó gần như chắc chắn sẽ tăng hoặc giảm. Giống như tôi dự đoán lỗi tiêu chuẩn sẽ nhỏ hơn, nhưng số lượng nó thu nhỏ sẽ không đồng nhất (và không thể xảy ra lỗi tiêu chuẩn lớn hơn.)

— Jeremy Miles
nguồn

Công thức SB có đưa ra giá trị tối thiểu, tối đa hoặc một số giá trị trung gian cho độ tin cậy dự kiến không? Ngoài ra, vì độ tin cậy được tính theo các mối tương quan, tại sao các mặt hàng dễ dàng / cứng hoặc bộ đo có ảnh hưởng?

— Joel W.

Công thức SB cho độ tin cậy mong đợi. Nó có thể cao hơn, hoặc thấp hơn thế. Một vấn đề là có nhiều hơn một cách để tính độ tin cậy và các giả định mà họ đưa ra hiếm khi được thỏa mãn. Toàn bộ điều này bắt nguồn từ lý thuyết kiểm tra cổ điển - lý thuyết phản hồi vật phẩm là một cách hiện đại hơn để suy nghĩ về đo lường, và nó có ý nghĩa hơn rất nhiều thời gian, ví dụ, độ tin cậy của một bài kiểm tra không giống nhau đối với mỗi bài kiểm tra người trong IRT.

— Jeremy Miles

Nếu một câu hỏi rất khó, hoặc rất dễ, nó có thể ảnh hưởng đến mối tương quan. Ví dụ: "7 * 11" có thể là một câu hỏi đáng tin cậy cho lớp 3, nhưng đối với sinh viên đại học toán thì không.

— Jeremy Miles

<bài kiểm tra cần dài hơn, vì vậy bạn sẽ 'cạo thùng' cho các mục. Rõ ràng bạn đã có kinh nghiệm trong thế giới thực cùng nhau thử nghiệm.

— Joel W.