Độ tin cậy giữa các nhà nghiên cứu với nhiều người không chồng chéo

8

Tôi có một bộ dữ liệu gồm hơn 11.000 mặt hàng riêng biệt, mỗi mặt hàng được phân loại theo thang điểm danh nghĩa bởi ít nhất 3 người đánh giá khác nhau trên Mechanical Turk của Amazon .

88 người đánh giá khác nhau đã đưa ra các bản án cho nhiệm vụ này và không có người đánh giá nào hoàn thành hơn 800 bản án. Hầu hết được cung cấp ít hơn đáng kể.

Câu hỏi của tôi là:

Tôi muốn tính toán một số thước đo độ tin cậy giữa các nhà cái cho các xếp hạng, một cái gì đó tốt hơn là chỉ nhìn vào sự đồng thuận. Tuy nhiên, tôi tin rằng Fleiss Kappa, là biện pháp mà tôi biết rõ nhất, sẽ yêu cầu một nhóm người thống nhất cho toàn bộ bộ vật phẩm, và vì vậy tôi không thể sử dụng Fleiss Kappa để kiểm tra IRR với dữ liệu của mình. Điều này có đúng không? Có phương pháp nào khác tôi có thể sử dụng?

Bât cư lơi khuyên nao cung se được đanh gia cao!

reliability agreement-statistics cohens-kappa

— Antdd Judd
nguồn

1

Chào mừng đến với trang web! Các câu hỏi tương tự đã được hỏi trước đây với các thẻ này - bạn đã kiểm tra xem có thể tìm thấy giải pháp làm việc nào trong số này không?

— StasK

1

Cảm ơn! Tôi chắc chắn đã kiểm tra. Tôi chỉ tìm thấy một câu hỏi liên quan trực tiếp , nhưng nó không nhận được câu trả lời.

— Judd Antin

2

Nếu bạn chỉ cần thuyết phục bản thân (thay vì báo cáo số cho một bên khác), bạn có thể phù hợp với mô hình phân cấp / hỗn hợp được phân loại chéo, với các mục và bộ đo là hai hiệu ứng ngẫu nhiên. Sau đó, mối tương quan nội bộ cho các bộ đo là [phương sai của hiệu ứng ngẫu nhiên của người xếp loại] / [phương sai của hiệu ứng ngẫu nhiên của người đo + phương sai của hiệu ứng ngẫu nhiên của vật phẩm + (phương sai của phân phối logistic = $\pi^2/3$ )]. Việc triển khai cụ thể phụ thuộc vào nền tảng tính toán mà bạn đang sử dụng; mặc định trên CV là R, vì vậy bạn sẽ sử dụng nlmenó, nhưng bạn có thể có một cái gì đó khác như SPSS hoặc Stata.

— StasK
nguồn

2

Kiểm tra alpha của Krippendorff. Nó có một số lợi thế so với một số biện pháp khác như Cohen's Kappa, Fleiss's Kappa, Cronbach's alpha: rất thiếu dữ liệu (mà tôi thu thập là mối quan tâm chính của bạn); nó có khả năng đối phó với hơn 2 con chuột; và nó có thể xử lý các loại thang đo khác nhau (danh nghĩa, thứ tự, v.v.), và nó cũng chiếm các thỏa thuận cơ hội tốt hơn một số biện pháp khác như Cohen's Kappa.

Tính toán alpha của Krippendorff được hỗ trợ bởi một số gói phần mềm thống kê, bao gồm R (theo gói ir), SPSS, v.v.

Dưới đây là một số tài liệu liên quan, thảo luận về alpha của Krippendorff bao gồm các thuộc tính và việc thực hiện nó, và so sánh nó với các biện pháp khác:

Hayes, AF, & Krippendorff, K. (2007). Trả lời cuộc gọi cho một thước đo độ tin cậy tiêu chuẩn cho dữ liệu mã hóa. Phương pháp và biện pháp truyền thông, 1 (1), 77-89.
Krippendorff, K. (2004). Độ tin cậy trong phân tích nội dung: Một số hiểu lầm và khuyến nghị phổ biến. Nghiên cứu truyền thông con người, 30 (3), 411-433. doi: 10.111 / j.1468-2958.2004.tb00738.x
Chương 3 trong Krippendorff, K. (2013). Phân tích nội dung: Giới thiệu về phương pháp luận của nó (tái bản lần thứ 3): Sage.

Có một số tài liệu kỹ thuật bổ sung trong trang web của Krippendorff

— ynagar
nguồn