Làm thế nào để thực hiện độ tin cậy giữa các nhà nghiên cứu với nhiều người xếp loại, người khác nhau cho mỗi người tham gia và những thay đổi có thể theo thời gian?

Những người tham gia được đánh giá hai lần, với 2 xếp hạng cách nhau 3 năm. Đối với hầu hết người tham gia, xếp hạng được thực hiện bởi những người đánh giá khác nhau, nhưng đối với một số (<10%), cùng một người đánh giá thực hiện cả hai xếp hạng. Có tất cả 8 người xếp loại, với 2 xếp hạng ở cả hai thời điểm.

Bây giờ, vì xếp hạng là một khía cạnh của khả năng với giá trị "chính xác" giả định, nên sự thỏa thuận tuyệt đối giữa những người xếp loại là mối quan tâm, thay vì sự nhất quán. Tuy nhiên, vì các xếp hạng được thực hiện cách nhau 3 năm, có thể đã có (và có lẽ là) một số thay đổi thực sự trong khả năng.

Điều gì sẽ là bài kiểm tra tốt nhất về độ tin cậy trong trường hợp này?
Tôi đang nghiêng về một mối tương quan giữa các lớp, nhưng ICC1 có phải là điều tốt nhất tôi có thể làm với những dữ liệu này không?

— Niềm vui
nguồn

Làm thế nào bạn có kế hoạch để tính đến thực tế là một số xếp hạng được thực hiện bởi cùng một người đánh giá? Ngoài đỉnh đầu, tôi không thể nghĩ ra bất kỳ biện pháp nào có tính đến điều đó khi nó không được thực hiện một cách nhất quán. Rốt cuộc, nếu bạn so sánh cùng một người đánh giá hai lần, bạn đang nhìn vào sự nhất quán; nếu bạn so sánh hai người xếp loại, bạn đang xem thỏa thuận. Vì vậy, khi bạn nói rằng bạn muốn đánh giá "độ tin cậy", nó không hoàn toàn rõ ràng những gì bạn đang tìm cách đánh giá.

Nếu bạn tin rằng mức độ khả năng của các đối tượng có thể đã thay đổi, điều quan trọng là phải xem xét cách bạn có thể giải thích cho thực tế đó. Bạn có một số phép đo tiêu chuẩn vàng để so sánh các con chuột với?

Vì vậy, tóm lại, trước khi bạn có thể đánh giá mức độ tin cậy của những người xếp loại, bạn cần trả lời hai câu hỏi chính:

Làm thế nào bạn có thể định lượng và sửa chữa cho sự thay đổi giữa các mốc thời gian được quy cho những thay đổi hợp pháp trong khả năng, thay vì sự thống nhất kém trong xếp hạng?
Bạn có quan tâm chủ yếu đến mức độ thường xuyên mà những người tán thành đồng ý với nhau, hoặc họ áp dụng xếp hạng một cách nhất quán như thế nào?

— MỤC TIÊU
nguồn

Cảm ơn bạn đã trả lời của bạn, TARehman. Giống như bạn nói, nó là một hỗn hợp. Tôi nghĩ rằng tôi sẽ cần phải chia mẫu cho những người được đánh giá bởi cùng một người đánh giá và những người không. Sau đó, tôi sẽ chạy phân tích riêng trên cả hai (tương ứng độ tin cậy và giữa độ tin cậy). Đối với vấn đề thay đổi thực tế, tôi không nghĩ có một cách

— Joyce

Dường như với tôi rằng nếu bạn chia chúng ra, bạn có thể tổng hợp điểm số cuối cùng thành một độ tin cậy meta, nhưng một kế hoạch như vậy đầy thách thức về phương pháp. Tôi nghĩ ICC sẽ là lựa chọn tốt nhất của bạn. Những con số của bạn như thế nào (có bao nhiêu xếp hạng, cá nhân, v.v. - chúng tôi biết bạn có 8 người xếp loại)?

— TARehman

Vì vậy, với mỗi cá nhân n = 800 có 2 xếp hạng. Có 5 đánh giá xếp hạng ở t1 và 5 ở t2 (8 hoàn toàn, với 2 xếp hạng ở cả t1 và t2). 100 cá nhân được đánh giá bởi cùng một người đánh giá ở cả hai thời điểm và 700 người có tỷ lệ khác nhau. Tôi không thể tìm ra ICC nào phù hợp nhất ở đây ...

— Joyce

Chà, có vẻ như bạn có thể giải quyết một trong hai điểm đạn ở trên bằng cách bỏ qua 100 cá nhân được đánh giá bởi cùng một người đánh giá ở cả hai thời điểm. Điều đó ít nhất giải quyết câu hỏi về những gì bạn quan tâm: tần suất họ đồng ý với nhau, hoặc họ áp dụng xếp hạng một cách nhất quán như thế nào. Vì bạn không có cách nào để kiểm soát sự thay đổi giá trị dự kiến theo thời gian, tôi vẫn không chắc bạn sẽ giải quyết điểm đầu tiên như thế nào ...

— TARehman

Chỉnh sửa để thêm: Bạn có thể thấy cuộc thảo luận Wikipedia về khía cạnh này của ICC mang tính minh họa: en.wikipedia.org/wiki/ . Cụ thể, nó nói rằng nó có thể được "sử dụng để đánh giá tính nhất quán hoặc tính phù hợp của các phép đo được thực hiện bởi nhiều nhà quan sát đo cùng một đại lượng." Vì những người xếp loại trong trường hợp này không đo cùng số lượng, ICC có thể không phù hợp với tình huống của bạn.

— TARehman