Độ tin cậy giữa các nhà nghiên cứu cho dữ liệu thứ tự hoặc khoảng

Những phương pháp độ tin cậy giữa các nhà nghiên cứu là thích hợp nhất cho dữ liệu thứ tự hoặc khoảng thời gian?

Tôi tin rằng "Xác suất chung của thỏa thuận" hoặc "Kappa" được thiết kế cho dữ liệu danh nghĩa. Trong khi "Pearson" và "Spearman" có thể được sử dụng, chúng chủ yếu được sử dụng cho hai người (mặc dù chúng có thể được sử dụng cho nhiều hơn hai người).

Những biện pháp khác phù hợp cho dữ liệu thứ tự hoặc khoảng, tức là nhiều hơn hai người xếp loại?

— shadi
nguồn

Thống kê Kappa ( ) là một chỉ số chất lượng so sánh thỏa thuận được quan sát giữa 2 người theo thang điểm danh nghĩa hoặc quy tắc với sự đồng ý chỉ có cơ hội (như thể những người bỏ phiếu đang tung lên). Phần mở rộng cho trường hợp có nhiều người tồn tại (2, tr. 284 Than291). Trong trường hợp dữ liệu thứ tự , bạn có thể sử dụng có trọng số , về cơ bản đọc như bình thường với các yếu tố ngoài đường chéo góp phần vào việc đo lường thỏa thuận. Fleiss (3) đã cung cấp các hướng dẫn để giải thích các giá trị nhưng đây chỉ là các quy tắc của ngón tay cái. $\kappa$ $\kappa$ $\kappa$ $\kappa$

Các Thống kê là tiệm tương đương với ICC ước tính từ một chiều hai hiệu ứng ngẫu nhiên ANOVA, nhưng các xét nghiệm tầm quan trọng và SE đến từ khuôn khổ ANOVA thông thường không có giá trị nữa với dữ liệu nhị phân. Tốt hơn là sử dụng bootstrap để có khoảng tin cậy (CI). Fleiss (8) đã thảo luận về mối liên hệ giữa kappa có trọng số và tương quan nội hàm (ICC). $\kappa$

Cần lưu ý rằng một số nhà tâm lý học không giống như vì nó bị ảnh hưởng bởi mức độ phổ biến của đối tượng đo lường giống như các giá trị tiên đoán bị ảnh hưởng bởi tỷ lệ mắc bệnh đang được xem xét và điều này có thể dẫn đến kết quả nghịch lý. $\kappa$

Độ tin cậy liên Rater cho người xếp hạng có thể được ước tính với hệ số Kendall của sự phù hợp, . Khi số lượng vật phẩm hoặc đơn vị được xếp hạng , . (2, trang 269 Vang270). Phép tính gần đúng tiệm cận này có giá trị với giá trị vừa phải của và (6), nhưng với ít hơn 20 mục hoặc các phép thử hoán vị thì phù hợp hơn (7). Có một mối quan hệ chặt chẽ giữa Spearman và Kendall của Thống kê: có thể được tính trực tiếp từ giá trị trung bình của các mối tương quan cặp Spearman (chỉ quan sát cởi trói). $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ $W$

Polychoric (dữ liệu thứ tự) tương quan cũng có thể được sử dụng như một biện pháp của thỏa thuận liên Rater. Thật vậy, họ cho phép

ước tính điều gì sẽ là tương quan nếu xếp hạng được thực hiện trên quy mô liên tục,
kiểm tra tính đồng nhất cận biên giữa các con chuột.

Trong thực tế, có thể chỉ ra rằng đó là một trường hợp đặc biệt của mô hình tính trạng tiềm ẩn, cho phép nới lỏng các giả định phân phối (4).

Về các phép đo liên tục (hoặc giả định), ICC định lượng tỷ lệ phương sai được quy cho biến thể giữa các chủ thể là tốt. Một lần nữa, các TCTD bootstraped được khuyến nghị. Như @ars đã nói, về cơ bản có hai phiên bản - thỏa thuận và nhất quán - được áp dụng trong trường hợp nghiên cứu thỏa thuận (5), và điều đó chủ yếu khác nhau về cách tính tổng bình phương; tính nhất quán của liên kết trực tuyến, ICC thường được ước tính mà không xem xét tương tác Item × Rater. Khung ANOVA hữu ích với thiết kế khối cụ thể nơi người ta muốn giảm thiểu số lượng xếp hạng ( BIBD ) - thực tế, đây là một trong những động lực ban đầu của công việc của Fleiss. Đó cũng là cách tốt nhất để đi nhiều người. Phần mở rộng tự nhiên của phương pháp này được gọi là Lý thuyết tổng quát . Một tổng quan ngắn gọn được đưa ra trong Mô hình Rater: Giới thiệu , nếu không thì tài liệu tham khảo tiêu chuẩn là cuốn sách của Brennan, được đánh giá trong Psychometrika 2006 71 (3) .

Đối với các tài liệu tham khảo chung, tôi đề nghị chương 3 của Thống kê trong Tâm thần học , từ Graham Dunn (Hodder Arnold, 2000). Đối với một điều trị đầy đủ hơn của các nghiên cứu độ tin cậy, tài liệu tham khảo tốt nhất cho đến nay là

Dunn, G (2004). Thiết kế và phân tích nghiên cứu độ tin cậy . Arnold. Xem đánh giá trong Tạp chí Quốc tế về Dịch tễ học .

Một giới thiệu trực tuyến tốt có sẵn trên trang web của John Uebersax, Intraclass Correlation và các phương pháp liên quan ; nó bao gồm một cuộc thảo luận về những ưu và nhược điểm của phương pháp ICC, đặc biệt là đối với quy mô thông thường.

Các gói R có liên quan để đánh giá hai chiều (đo lường thứ tự hoặc liên tục) được tìm thấy trong Chế độ xem Nhiệm vụ Tâm lý học ; Tôi thường sử dụng các gói psy , psych , hoặc ir . Ngoài ra còn có gói concord nhưng tôi không bao giờ sử dụng nó. Để xử lý nhiều hơn hai con chuột, gói lme4 là cách để nó cho phép dễ dàng kết hợp các hiệu ứng ngẫu nhiên, nhưng hầu hết các thiết kế độ tin cậy có thể được phân tích bằng cách sử dụng aov()vì chúng ta chỉ cần ước tính các thành phần phương sai.

Tài liệu tham khảo

J Cohen. Trọng số kappa: Thỏa thuận quy mô danh nghĩa với quy định cho quy mô bất đồng của tín dụng một phần. Bản tin tâm lý , 70 , 213 Phản 220, 1968.
S Siegel và Jr N John Castellan. Thống kê phi trắc nghiệm cho các khoa học hành vi . McGraw-Hill, tái bản lần thứ hai, 1988.
JL Fleiss. Phương pháp thống kê tỷ lệ và tỷ lệ . New York: Wiley, tái bản lần thứ hai, 1981.
Uebersax. Các hệ số tương quan tetrachoric và polychoric . Phương pháp thống kê cho trang web Thỏa thuận người chơi, 2006. Có sẵn tại: http://john-uebersax.com/stat/tetra.htm . Truy cập ngày 24 tháng 2 năm 2010.
PE Shrout và JL Fleiss. Tương quan Intraclass: Sử dụng trong việc đánh giá độ tin cậy của người đánh giá . Bản tin tâm lý , 86 , 420 Ném428, 1979.
MG Kendall và B Babington Smith. Vấn đề của bảng xếp hạng m . Biên niên sử thống kê toán học , 10 , 275 Từ287, 1939.
Truyền thuyết P. Hệ số phù hợp . Trong NJ Salkind, biên tập viên, bách khoa toàn thư về thiết kế nghiên cứu . Ấn phẩm SAGE, 2010.
JL Fleiss. Sự tương đương của kappa có trọng số và hệ số tương quan nội hàm là thước đo độ tin cậy . Đo lường giáo dục và tâm lý , 33 , 613-619, 1973.

— chl
nguồn

Ba tài liệu tham khảo bổ sung: 1. Beyond Kappa: Đánh giá về các biện pháp thỏa thuận giữa các bên của Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney, & Debajyoti Sinha 2. Độ tin cậy và thỏa thuận xếp hạng hiệu suất của Interrater: Một so sánh phương pháp của John W. Fleenor, Julie B. Fleenor & William F. Grossnickle

— M. Tibbits

3. Phương pháp thống kê để đánh giá lỗi đo lường (độ tin cậy) trong các biến liên quan đến y học thể thao. bởi Atkinson G & Nevill AM. Tham chiếu đầu tiên là cụ thể cho dữ liệu thứ tự và thảo luận về các biện pháp khác ngoài kappa cho dữ liệu thứ tự. Thứ hai và thứ ba là cụ thể cho dữ liệu khoảng.

— M. Tibbits

(+1) Rất cám ơn M. Tibbits! Tôi thường cung cấp rất nhiều tài liệu tham khảo và ví dụ trong các bài giảng của tôi về tâm lý học, bao gồm cả bài đầu tiên bạn trích dẫn, nhưng tôi không biết hai bài khác.

— chl

Ngoài ra, gói thứ tự cho phép mô hình đa cấp như lme4 nhưng với hồi quy thứ tự.

— Giăng

Các Intraclass tương quan có thể được sử dụng cho dữ liệu thứ tự. Nhưng có một số cảnh báo, chủ yếu là những người không thể phân biệt được. Để biết thêm về điều này và cách chọn giữa các phiên bản khác nhau của ICC, xem:

Tương quan nội bộ: sử dụng trong việc đánh giá độ tin cậy của người đánh giá (Shrout, Fleiss, 1979)

— ars
nguồn