Tôi có một bộ dữ liệu gồm hơn 11.000 mặt hàng riêng biệt, mỗi mặt hàng được phân loại theo thang điểm danh nghĩa bởi ít nhất 3 người đánh giá khác nhau trên Mechanical Turk của Amazon .
88 người đánh giá khác nhau đã đưa ra các bản án cho nhiệm vụ này và không có người đánh giá nào hoàn thành hơn 800 bản án. Hầu hết được cung cấp ít hơn đáng kể.
Câu hỏi của tôi là:
Tôi muốn tính toán một số thước đo độ tin cậy giữa các nhà cái cho các xếp hạng, một cái gì đó tốt hơn là chỉ nhìn vào sự đồng thuận. Tuy nhiên, tôi tin rằng Fleiss Kappa, là biện pháp mà tôi biết rõ nhất, sẽ yêu cầu một nhóm người thống nhất cho toàn bộ bộ vật phẩm, và vì vậy tôi không thể sử dụng Fleiss Kappa để kiểm tra IRR với dữ liệu của mình. Điều này có đúng không? Có phương pháp nào khác tôi có thể sử dụng?
Bât cư lơi khuyên nao cung se được đanh gia cao!