Phải làm gì trong trường hợp độ tin cậy giữa các nhà nghiên cứu (ICC) thấp?


8

Bối cảnh: Tám bác sĩ mỗi người đánh giá 54 bệnh nhân giống nhau theo thang đo thuyết phục (thang điểm 1-7 Likert). Điểm trung bình trên thước đo tính thuyết phục cuối cùng sẽ là thước đo kết quả của thí nghiệm của tôi.

Độ tin cậy giữa các nhà nghiên cứu được định lượng là hệ số tương quan nội bộ (ICC), sử dụng mô hình hiệu ứng ngẫu nhiên hai chiều với tính nhất quán. Thật không may, độ tin cậy giữa các bác sĩ của tám bác sĩ là thấp (ICC = 0,350, các biện pháp đơn lẻ). Tôi có nên vẫn chạy các phân tích được lên kế hoạch thêm với những dữ liệu không đáng tin cậy này không? Hoặc có thể có thể biện minh rằng tôi chỉ bao gồm các bác sĩ (tức là người xếp loại) với độ tin cậy giữa các nhà nghiên cứu cao nhất? Tôi phát hiện ra có hai bác sĩ có độ tin cậy giữa các nhà nghiên cứu dễ chấp nhận hơn (ICC = .718, N = 2), nhưng tôi không nghĩ đây là lý do đủ để loại các bác sĩ khác khỏi các phân tích. Tôi thực sự sẽ đánh giá cao bất kỳ tài liệu tham khảo đến văn học liên quan đến vấn đề này.

Câu trả lời:


6

Tôi muốn trả lời trên cơ sở phương pháp luận, hơn là làm thế nào để "khắc phục" tình huống. Trong một bối cảnh khác, tôi đã hỗ trợ làm việc trên một hệ thống xếp hạng và phân loại, và thấy rằng thỏa thuận giữa các bên là thấp đáng thất vọng. Hai con đường đã được xem xét

  1. Thay đổi cách xác định thỏa thuận xếp hạng và xác định những người dường như "hiểu" nhiệm vụ, hoặc
  2. Tinh chỉnh các định nghĩa được sử dụng, cùng với hướng dẫn và ví dụ cung cấp cho người xếp loại, để họ có thể dễ dàng hiểu cách đánh giá mọi thứ hơn.

Trong bối cảnh đầu tiên, toàn bộ phương pháp và kết quả có thể bị lãng phí chỉ vì độ tin cậy giữa các nhà nghiên cứu thấp. Nó chỉ ra rằng các định nghĩa ban đầu là xấu hoặc những người xếp loại được đưa ra các hướng dẫn kém. Nếu tôi đi dọc theo con đường đó, tôi chắc chắn có vấn đề.

Trong trường hợp thứ hai, thỏa thuận giữa những người được phê chuẩn là rất tốt. Vì họ đánh giá khá nhiều mặt hàng, họ cũng có thể đưa ra phản hồi khi họ nghĩ rằng các định nghĩa và hướng dẫn ban đầu là không thỏa đáng. Cuối cùng, phương pháp này rất có thể tái sản xuất.

Dựa vào đó, tôi sẽ không sửa đổi bộ chỉ số của bạn, mà quay lại các định nghĩa và hướng dẫn ban đầu. Bất kỳ sự mày mò nào sau khi đánh giá là một vấn đề, mặc dù nó có thể hữu ích như một kiểm tra chất lượng. Đôi khi có những người sẽ làm những gì họ muốn, bất kể hướng dẫn được đưa ra. Với các phương pháp thống kê tốt, thật dễ dàng để xác định chúng và cân nhắc đóng góp của chúng một cách thích hợp.

Bây giờ, nếu tôi nhầm và bạn không có kế hoạch thu thập thêm, tức là dữ liệu của bạn đã được thu thập và thực hiện, những gì bạn có thể làm là PCA hoặc một cái gì đó tương tự, và xem liệu bạn có thể hiểu được sự khác biệt như thế nào bác sĩ (hoặc bệnh nhân) cụm.

Các bệnh nhân có được tiếp xúc với tất cả các bác sĩ cùng một lúc không (ví dụ thông qua ghi video) hoặc họ được tiếp xúc liên tục và có cơ hội sửa đổi bản trình bày của họ với mỗi tương tác? Nếu sau này, có thể có vấn đề với bệnh nhân, và không phải các bác sĩ.


3

Cherry chọn giá trị ICC tốt nhất trong số 28 cặp có thể chắc chắn KHÔNG phải là ý hay, vì ước tính đó của ICC chắc chắn rất lạc quan.

Cẩm nang Phân tích Nội dung của Neuendorf có một cuộc thảo luận khá tốt về các tùy chọn để xử lý độ tin cậy kém trong mã hóa. Trích dẫn là:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

Có một trang web đi kèm .


Liên kết không hoạt động nữa
Tom
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.