Hệ số tương quan nội bộ so với thử nghiệm F (ANOVA một chiều)?

Tôi hơi bối rối về hệ số tương quan nội hàm và ANOVA một chiều. Theo tôi hiểu, cả hai đều cho bạn biết các quan sát tương tự trong một nhóm như thế nào, so với các quan sát trong các nhóm khác.

Ai đó có thể giải thích điều này tốt hơn một chút, và có lẽ giải thích (các) tình huống trong đó mỗi phương pháp có lợi hơn không?

— chảy máu
nguồn

Xin vui lòng, dành thời gian để xem các thẻ đáng tin cậy hoặc liên nhóm . ICC dựa trên bảng ANOVA, nhưng ý tưởng chỉ đơn thuần là phân tích các thành phần của phương sai chứ không tạo ra một thống kê kiểm tra duy nhất với các đặc tính phân phối, như F-test. Bạn có ứng dụng gì trong tâm trí?

— chl

@chl Tôi đang tìm cách phân tích điểm số riêng cho dữ liệu được nhóm. Tôi đã thấy một vài bài kiểm tra sự khác biệt giữa điểm số của phụ huynh và trẻ em, sử dụng ICC để cho biết liệu có sự khác biệt đáng kể trong câu trả lời của phụ huynh so với trẻ em hay không. Tôi nghĩ ICC là những gì tôi muốn ở đây, nhưng như tôi đã đề cập, tôi không thực sự hiểu sự khác biệt giữa hai loại này. Tôi ngần ngại hỏi thêm, nhưng bạn có biết bất kỳ tài liệu tham khảo (cơ bản) tốt nào không? Nền tảng thống kê của tôi dừng lại ở hồi quy tuyến tính và tôi cảm thấy như mình đang hỏi những câu hỏi không được xây dựng tốt. Cảm ơn bạn.

— thổi

Có vẻ như bạn đã ghép dữ liệu. Khi xem xét các nhóm riêng biệt (cha mẹ so với con cái của họ) và sử dụng ICC để báo cáo độ tin cậy về điểm số, bạn sẽ bỏ đi một phần thông tin, tức là liệu xếp hạng từ cha mẹ và người thân của họ có hành động nhất quán hay không. Hai ICC của bạn sẽ chỉ cho bạn biết liệu cả hai loạt điểm số, được coi là độc lập, có "đáng tin cậy" hay không, theo nghĩa là một phần đáng kể của phương sai có thể được tính bằng hiệu ứng của người đánh giá. (...)

— chl

(...) Tóm lại, nếu bạn muốn chứng minh rằng xếp hạng của phụ huynh đáng tin cậy hơn so với trẻ em, thì sử dụng ICC là ổn; mặt khác, nếu bạn muốn nghiên cứu cách xếp hạng của cha mẹ liên quan đến xếp hạng của trẻ em, thì bạn có thể sử dụng loại phân tích khác (chính xác là phân tích dữ liệu dyadic).

— chl

Cả hai phương pháp đều dựa trên cùng một ý tưởng, đó là phân tách phương sai quan sát được thành các phần hoặc thành phần khác nhau. Tuy nhiên, có những khác biệt tinh tế trong việc chúng tôi coi các vật phẩm và / hoặc người xếp loại là hiệu ứng cố định hay ngẫu nhiên. Ngoài việc cho biết phần nào của tổng biến thiên được giải thích bởi yếu tố giữa (hoặc bao nhiêu giữa phương sai rời khỏi phương sai dư), thử nghiệm F không nói gì nhiều. Ít nhất điều này đúng với ANOVA một chiều trong đó chúng tôi giả sử hiệu ứng cố định (và tương ứng với ICC (1,1) được mô tả bên dưới). Mặt khác, ICC cung cấp một chỉ số giới hạn khi đánh giá độ tin cậy xếp hạng đối với một số người đánh giá "có thể trao đổi" hoặc tính đồng nhất giữa các đơn vị phân tích.

Chúng tôi thường phân biệt sau đây giữa các loại ICC khác nhau. Điều này xuất phát từ công trình bán kết của Shrout và Fleiss (1979):

Mô hình hiệu ứng ngẫu nhiên một chiều , ICC (1,1): mỗi mục được đánh giá bởi những người đánh giá khác nhau, những người được coi là được lấy mẫu từ một nhóm lớn hơn những người có tiềm năng, do đó chúng được coi là hiệu ứng ngẫu nhiên; ICC sau đó được hiểu là% của tổng phương sai chiếm bởi phương sai của vật thể / vật phẩm. Điều này được gọi là ICC nhất quán.
Mô hình hiệu ứng ngẫu nhiên hai chiều , ICC (2.1): cả hai yếu tố - người xếp loại và vật phẩm / đối tượng - được xem là hiệu ứng ngẫu nhiên và chúng tôi có hai thành phần phương sai (hoặc bình phương trung bình) ngoài phương sai còn lại; chúng tôi tiếp tục giả định rằng những người đánh giá đánh giá tất cả các mặt hàng / đối tượng; ICC đưa ra trong trường hợp này là% phương sai được quy cho người xếp loại + vật phẩm / đối tượng.
Mô hình hỗn hợp hai chiều , ICC (3,1): trái với cách tiếp cận một chiều, ở đây, các bộ đo được coi là hiệu ứng cố định (không khái quát hóa ngoài mẫu trong tay) nhưng các vật phẩm / đối tượng được coi là hiệu ứng ngẫu nhiên; đơn vị phân tích có thể là cá nhân hoặc xếp hạng trung bình.

Điều này tương ứng với các trường hợp 1 đến 3 trong Bảng 1. Một sự khác biệt bổ sung có thể được thực hiện tùy thuộc vào việc chúng tôi xem xét xếp hạng quan sát là trung bình của một số xếp hạng (chúng được gọi là ICC (1, k), ICC (2, k), và ICC (3, k)) hay không.

Tóm lại, bạn phải chọn mô hình phù hợp (một chiều so với hai chiều) và điều này phần lớn được thảo luận trong bài báo của Shrout và Fleiss. Mô hình một chiều có xu hướng mang lại giá trị nhỏ hơn mô hình hai chiều; tương tự, mô hình hiệu ứng ngẫu nhiên thường mang lại giá trị thấp hơn mô hình hiệu ứng cố định. Một ICC có nguồn gốc từ một mô hình hiệu ứng cố định được coi là một cách để đánh giá tính nhất quán của người đo (vì chúng tôi bỏ qua phương sai của người đánh giá), trong khi đối với mô hình hiệu ứng ngẫu nhiên, chúng tôi nói về ước tính thỏa thuận của người xếp (có thể thay thế được hay không). Chỉ các mô hình hai chiều kết hợp tương tác rater x chủ đề, có thể được quan tâm khi cố gắng làm sáng tỏ các mẫu xếp hạng không điển hình.

Hình minh họa sau đây dễ dàng là một bản sao / dán ví dụ từ ICC()trong gói tâm lý (dữ liệu đến từ Shrout và Fleiss, 1979). Dữ liệu bao gồm 4 thẩm phán (J) bao gồm 6 đối tượng hoặc mục tiêu (S) và được tóm tắt dưới đây (tôi sẽ giả sử rằng nó được lưu trữ dưới dạng ma trận R có tên sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Ví dụ này rất thú vị vì nó cho thấy sự lựa chọn của mô hình có thể ảnh hưởng đến kết quả như thế nào, do đó việc giải thích nghiên cứu độ tin cậy. Tất cả 6 mô hình ICC như sau (đây là Bảng 4 trong bài viết của Shrout và Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Có thể thấy, việc xem xét các bộ đo như là các hiệu ứng cố định (do đó không cố gắng khái quát hóa cho một nhóm các bộ đo rộng hơn) sẽ mang lại giá trị cao hơn nhiều cho tính đồng nhất của phép đo. (Kết quả tương tự có thể thu được với gói ir ( icc()), mặc dù chúng ta phải chơi với tùy chọn khác nhau cho loại mô hình và đơn vị phân tích.)

Phương pháp ANOVA cho chúng ta biết điều gì? Chúng ta cần phải phù hợp với hai mô hình để có được các bình phương trung bình có liên quan:

mô hình một chiều chỉ xem xét chủ đề; điều này cho phép phân tách các mục tiêu được xếp hạng (giữa nhóm MS, BMS) và ước tính thời hạn lỗi (WMS)
một mô hình hai chiều xem xét chủ đề + người đánh giá + sự tương tác của họ (khi không có bản sao, thuật ngữ cuối cùng này sẽ bị nhầm lẫn với phần dư); điều này cho phép ước tính hiệu ứng chính của người đánh giá (JMS) có thể được tính nếu chúng ta muốn sử dụng một mô hình hiệu ứng ngẫu nhiên (nghĩa là chúng ta sẽ thêm nó vào tổng biến thiên)

Không cần phải xem xét nghiệm F, chỉ có các MS quan tâm ở đây.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Bây giờ, chúng ta có thể lắp ráp các mảnh khác nhau trong Bảng ANOVA mở rộng trông giống như bảng hiển thị bên dưới (đây là Bảng 3 trong bài viết của Shrout và Fleiss):

_{(nguồn: mathurl.com )}

trong đó hai hàng đầu tiên đến từ mô hình một chiều, trong khi hai hàng tiếp theo đến từ ANOVA hai chiều.

Thật dễ dàng để kiểm tra tất cả các công thức trong bài viết của Shrout và Fleiss, và chúng tôi có mọi thứ chúng tôi cần để ước tính độ tin cậy cho một đánh giá . Điều gì về độ tin cậy đối với trung bình của nhiều đánh giá (thường là số lượng quan tâm trong các nghiên cứu liên ngành)? Theo Hays và Revicki (2005), có thể thu được từ sự phân tách ở trên bằng cách thay đổi tổng MS được xem xét trong mẫu số, ngoại trừ mô hình hiệu ứng ngẫu nhiên hai chiều mà chúng ta phải viết lại tỷ lệ của MS.

Trong trường hợp ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), độ tin cậy tổng thể được tính là (BMS-WMS) /BMS=0.443.
Đối với ICC (2.1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), độ tin cậy tổng thể là (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
Cuối cùng, đối với ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), chúng tôi có độ tin cậy của (BMS-EMS) /BMS=0.909.

Một lần nữa, chúng tôi thấy rằng độ tin cậy tổng thể cao hơn khi coi những người xếp loại là hiệu ứng cố định.

Người giới thiệu

Cây bụi, PE và Fleiss, JL (1979). Tương quan nội bộ: Sử dụng trong việc đánh giá độ tin cậy của người đánh giá . Bản tin tâm lý , 86, 420-3428.
Hays, RD và Revicki, D. (2005). Độ tin cậy và giá trị (bao gồm cả đáp ứng). Trong Fayers, P. và Hays, RD (chủ biên), Đánh giá chất lượng cuộc sống trong các thử nghiệm lâm sàng , tái bản lần 2, trang 25-39. Nhà xuất bản Đại học Oxford.

— chl
nguồn