Cả hai phương pháp đều dựa trên cùng một ý tưởng, đó là phân tách phương sai quan sát được thành các phần hoặc thành phần khác nhau. Tuy nhiên, có những khác biệt tinh tế trong việc chúng tôi coi các vật phẩm và / hoặc người xếp loại là hiệu ứng cố định hay ngẫu nhiên. Ngoài việc cho biết phần nào của tổng biến thiên được giải thích bởi yếu tố giữa (hoặc bao nhiêu giữa phương sai rời khỏi phương sai dư), thử nghiệm F không nói gì nhiều. Ít nhất điều này đúng với ANOVA một chiều trong đó chúng tôi giả sử hiệu ứng cố định (và tương ứng với ICC (1,1) được mô tả bên dưới). Mặt khác, ICC cung cấp một chỉ số giới hạn khi đánh giá độ tin cậy xếp hạng đối với một số người đánh giá "có thể trao đổi" hoặc tính đồng nhất giữa các đơn vị phân tích.
Chúng tôi thường phân biệt sau đây giữa các loại ICC khác nhau. Điều này xuất phát từ công trình bán kết của Shrout và Fleiss (1979):
- Mô hình hiệu ứng ngẫu nhiên một chiều , ICC (1,1): mỗi mục được đánh giá bởi những người đánh giá khác nhau, những người được coi là được lấy mẫu từ một nhóm lớn hơn những người có tiềm năng, do đó chúng được coi là hiệu ứng ngẫu nhiên; ICC sau đó được hiểu là% của tổng phương sai chiếm bởi phương sai của vật thể / vật phẩm. Điều này được gọi là ICC nhất quán.
- Mô hình hiệu ứng ngẫu nhiên hai chiều , ICC (2.1): cả hai yếu tố - người xếp loại và vật phẩm / đối tượng - được xem là hiệu ứng ngẫu nhiên và chúng tôi có hai thành phần phương sai (hoặc bình phương trung bình) ngoài phương sai còn lại; chúng tôi tiếp tục giả định rằng những người đánh giá đánh giá tất cả các mặt hàng / đối tượng; ICC đưa ra trong trường hợp này là% phương sai được quy cho người xếp loại + vật phẩm / đối tượng.
- Mô hình hỗn hợp hai chiều , ICC (3,1): trái với cách tiếp cận một chiều, ở đây, các bộ đo được coi là hiệu ứng cố định (không khái quát hóa ngoài mẫu trong tay) nhưng các vật phẩm / đối tượng được coi là hiệu ứng ngẫu nhiên; đơn vị phân tích có thể là cá nhân hoặc xếp hạng trung bình.
Điều này tương ứng với các trường hợp 1 đến 3 trong Bảng 1. Một sự khác biệt bổ sung có thể được thực hiện tùy thuộc vào việc chúng tôi xem xét xếp hạng quan sát là trung bình của một số xếp hạng (chúng được gọi là ICC (1, k), ICC (2, k), và ICC (3, k)) hay không.
Tóm lại, bạn phải chọn mô hình phù hợp (một chiều so với hai chiều) và điều này phần lớn được thảo luận trong bài báo của Shrout và Fleiss. Mô hình một chiều có xu hướng mang lại giá trị nhỏ hơn mô hình hai chiều; tương tự, mô hình hiệu ứng ngẫu nhiên thường mang lại giá trị thấp hơn mô hình hiệu ứng cố định. Một ICC có nguồn gốc từ một mô hình hiệu ứng cố định được coi là một cách để đánh giá tính nhất quán của người đo (vì chúng tôi bỏ qua phương sai của người đánh giá), trong khi đối với mô hình hiệu ứng ngẫu nhiên, chúng tôi nói về ước tính thỏa thuận của người xếp (có thể thay thế được hay không). Chỉ các mô hình hai chiều kết hợp tương tác rater x chủ đề, có thể được quan tâm khi cố gắng làm sáng tỏ các mẫu xếp hạng không điển hình.
Hình minh họa sau đây dễ dàng là một bản sao / dán ví dụ từ ICC()
trong gói tâm lý (dữ liệu đến từ Shrout và Fleiss, 1979). Dữ liệu bao gồm 4 thẩm phán (J) bao gồm 6 đối tượng hoặc mục tiêu (S) và được tóm tắt dưới đây (tôi sẽ giả sử rằng nó được lưu trữ dưới dạng ma trận R có tên sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Ví dụ này rất thú vị vì nó cho thấy sự lựa chọn của mô hình có thể ảnh hưởng đến kết quả như thế nào, do đó việc giải thích nghiên cứu độ tin cậy. Tất cả 6 mô hình ICC như sau (đây là Bảng 4 trong bài viết của Shrout và Fleiss)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Có thể thấy, việc xem xét các bộ đo như là các hiệu ứng cố định (do đó không cố gắng khái quát hóa cho một nhóm các bộ đo rộng hơn) sẽ mang lại giá trị cao hơn nhiều cho tính đồng nhất của phép đo. (Kết quả tương tự có thể thu được với gói ir ( icc()
), mặc dù chúng ta phải chơi với tùy chọn khác nhau cho loại mô hình và đơn vị phân tích.)
Phương pháp ANOVA cho chúng ta biết điều gì? Chúng ta cần phải phù hợp với hai mô hình để có được các bình phương trung bình có liên quan:
- mô hình một chiều chỉ xem xét chủ đề; điều này cho phép phân tách các mục tiêu được xếp hạng (giữa nhóm MS, BMS) và ước tính thời hạn lỗi (WMS)
- một mô hình hai chiều xem xét chủ đề + người đánh giá + sự tương tác của họ (khi không có bản sao, thuật ngữ cuối cùng này sẽ bị nhầm lẫn với phần dư); điều này cho phép ước tính hiệu ứng chính của người đánh giá (JMS) có thể được tính nếu chúng ta muốn sử dụng một mô hình hiệu ứng ngẫu nhiên (nghĩa là chúng ta sẽ thêm nó vào tổng biến thiên)
Không cần phải xem xét nghiệm F, chỉ có các MS quan tâm ở đây.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Bây giờ, chúng ta có thể lắp ráp các mảnh khác nhau trong Bảng ANOVA mở rộng trông giống như bảng hiển thị bên dưới (đây là Bảng 3 trong bài viết của Shrout và Fleiss):
(nguồn: mathurl.com )
trong đó hai hàng đầu tiên đến từ mô hình một chiều, trong khi hai hàng tiếp theo đến từ ANOVA hai chiều.
Thật dễ dàng để kiểm tra tất cả các công thức trong bài viết của Shrout và Fleiss, và chúng tôi có mọi thứ chúng tôi cần để ước tính độ tin cậy cho một đánh giá . Điều gì về độ tin cậy đối với trung bình của nhiều đánh giá (thường là số lượng quan tâm trong các nghiên cứu liên ngành)? Theo Hays và Revicki (2005), có thể thu được từ sự phân tách ở trên bằng cách thay đổi tổng MS được xem xét trong mẫu số, ngoại trừ mô hình hiệu ứng ngẫu nhiên hai chiều mà chúng ta phải viết lại tỷ lệ của MS.
- Trong trường hợp ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), độ tin cậy tổng thể được tính là (BMS-WMS) /BMS=0.443.
- Đối với ICC (2.1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), độ tin cậy tổng thể là (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
- Cuối cùng, đối với ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), chúng tôi có độ tin cậy của (BMS-EMS) /BMS=0.909.
Một lần nữa, chúng tôi thấy rằng độ tin cậy tổng thể cao hơn khi coi những người xếp loại là hiệu ứng cố định.
Người giới thiệu
- Cây bụi, PE và Fleiss, JL (1979). Tương quan nội bộ: Sử dụng trong việc đánh giá độ tin cậy của người đánh giá . Bản tin tâm lý , 86, 420-3428.
- Hays, RD và Revicki, D. (2005). Độ tin cậy và giá trị (bao gồm cả đáp ứng). Trong Fayers, P. và Hays, RD (chủ biên), Đánh giá chất lượng cuộc sống trong các thử nghiệm lâm sàng , tái bản lần 2, trang 25-39. Nhà xuất bản Đại học Oxford.