Nếu bạn đang tìm kiếm để có được "hiệu ứng gia đình" và "hiệu ứng vật phẩm", chúng ta có thể nghĩ đến việc có những lần chặn ngẫu nhiên cho cả hai điều này, và sau đó mô hình hóa điều này với gói 'lme4'.
Nhưng, trước tiên chúng ta phải cho mỗi anh chị em một id duy nhất, thay vì một id duy nhất trong gia đình.
Sau đó, đối với "mối tương quan giữa các phép đo được thực hiện đối với anh chị em trong cùng một gia đình đối với các mặt hàng khác nhau ", chúng ta có thể chỉ định một số thứ như:
mod<-lmer(value ~ (1|family)+(1|item), data=family)
Điều này sẽ cung cấp cho chúng tôi một hiệu ứng đánh chặn cố định cho tất cả anh chị em, và sau đó hai hiệu ứng ngẫu nhiên chặn (với phương sai), cho gia đình và vật phẩm.
Sau đó, đối với "mối tương quan giữa các phép đo đối với anh chị em trong cùng một gia đình cho cùng một mặt hàng", chúng ta có thể làm điều tương tự nhưng chỉ cần đặt lại dữ liệu của mình, vì vậy chúng ta có một cái gì đó như:
mod2<-lmer(value ~ (1|family), data=subset(family,item=="1"))
Tôi nghĩ rằng đây có thể là một cách tiếp cận dễ dàng hơn cho câu hỏi của bạn. Nhưng, nếu bạn chỉ muốn ICC cho vật phẩm hoặc gia đình, gói 'tâm lý' có chức năng ICC () - hãy thận trọng về cách làm tan chảy vật phẩm và giá trị trong dữ liệu mẫu của bạn.
Cập nhật
Một số điều dưới đây là mới đối với tôi, nhưng tôi thích làm việc đó. Tôi thực sự không quen thuộc với ý tưởng về tương quan nội hàm tiêu cực. Mặc dù tôi thấy trên Wikipedia rằng những khiếm khuyết ban đầu của ICC đã cho phép một mối tương quan tiêu cực với dữ liệu được ghép nối. Nhưng vì nó được sử dụng phổ biến nhất hiện nay, ICC được hiểu là tỷ lệ của tổng phương sai giữa phương sai giữa các nhóm. Và giá trị này luôn luôn tích cực. Mặc dù Wikipedia có thể không phải là tài liệu tham khảo có thẩm quyền nhất, nhưng tóm tắt này tương ứng với cách tôi luôn thấy ICC được sử dụng:
Một lợi thế của khung ANOVA này là các nhóm khác nhau có thể có số lượng giá trị dữ liệu khác nhau, rất khó xử lý bằng cách sử dụng số liệu thống kê ICC trước đó. Cũng lưu ý rằng ICC này luôn không âm, cho phép nó được hiểu là tỷ lệ của tổng phương sai là giữa các nhóm. Đây là ICC có thể được khái quát hóa để cho phép các hiệu ứng đồng biến, trong trường hợp đó ICC được hiểu là bắt giữ độ tương tự trong lớp của các giá trị dữ liệu được điều chỉnh đồng biến.
Điều đó nói rằng, với dữ liệu như bạn đã đưa ra ở đây, mối tương quan giữa các lớp giữa các mục 1, 2 và 3 rất có thể là âm. Và chúng ta có thể mô hình hóa điều này, nhưng tỷ lệ phương sai được giải thích giữa các nhóm vẫn sẽ dương.
# load our data and lme4
library(lme4)
## Loading required package: Matrix
dat<-read.table("http://www.wvbauer.com/fam_sib_item.dat", header=TRUE)
Vì vậy, bao nhiêu phần trăm của phương sai giữa các gia đình, cũng kiểm soát giữa phương sai nhóm giữa các nhóm mục? Chúng tôi có thể sử dụng mô hình chặn ngẫu nhiên như bạn đề xuất:
mod<-lmer(yijk ~ (1|family)+(1|item), data=dat)
summary(mod)
## Linear mixed model fit by REML ['lmerMod']
## Formula: yijk ~ (1 | family) + (1 | item)
## Data: dat
##
## REML criterion at convergence: 4392.3
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -3.6832 -0.6316 0.0015 0.6038 3.9801
##
## Random effects:
## Groups Name Variance Std.Dev.
## family (Intercept) 0.3415 0.5843
## item (Intercept) 0.8767 0.9363
## Residual 4.2730 2.0671
## Number of obs: 1008, groups: family, 100; item, 3
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) 2.927 0.548 5.342
Chúng tôi tính toán ICC bằng cách lấy phương sai từ hai hiệu ứng ngẫu nhiên chặn và từ phần dư. Sau đó, chúng tôi tính bình phương của phương sai gia đình trên tổng bình phương của tất cả các phương sai.
temp<-as.data.frame(VarCorr(mod))$vcov
temp.family<-(temp[1]^2)/(temp[1]^2+temp[2]^2+temp[3]^2)
temp.family
## [1] 0.006090281
Sau đó chúng ta có thể làm tương tự cho hai ước tính phương sai khác:
# variance between item-groups
temp.items<-(temp[2]^2)/(temp[1]^2+temp[2]^2+temp[3]^2)
temp.items
## [1] 0.04015039
# variance unexplained by groups
temp.resid<-(temp[3]^2)/(temp[1]^2+temp[2]^2+temp[3]^2)
temp.resid
## [1] 0.9537593
# clearly then, these will sum to 1
temp.family+temp.items+temp.resid
## [1] 1
Những kết quả này cho thấy rằng rất ít trong tổng phương sai được giải thích bởi phương sai giữa các gia đình hoặc giữa các nhóm vật phẩm. Nhưng, như đã lưu ý ở trên, mối tương quan giữa các lớp giữa các mặt hàng vẫn có thể là âm. Trước tiên, hãy lấy dữ liệu của chúng tôi ở định dạng rộng hơn:
# not elegant but does the trick
dat2<-cbind(subset(dat,item==1),subset(dat,item==2)[,1],subset(dat,item==3)[,1])
names(dat2)<-c("item1","family","sibling","item","item2","item3")
Bây giờ chúng ta có thể mô hình hóa mối tương quan giữa, ví dụ, item1 và item3 với một đánh chặn ngẫu nhiên cho gia đình như trước đây. Nhưng trước tiên, có lẽ đáng nhớ là đối với hồi quy tuyến tính đơn giản, căn bậc hai của bình phương r của mô hình giống như hệ số tương quan giữa các lớp (pearson's r) cho mục 1 và mục2.
# a simple linear regression
mod2<-lm(item1~item3,data=dat2)
# extract pearson's r
sqrt(summary(mod2)$r.squared)
## [1] 0.6819125
# check this
cor(dat2$item1,dat2$item3)
## [1] 0.6819125
# yep, equal
# now, add random intercept to the model
mod3<-lmer(item1 ~ item3 + (1|family), data=dat2)
summary(mod3)
## Linear mixed model fit by REML ['lmerMod']
## Formula: item1 ~ item3 + (1 | family)
## Data: dat2
##
## REML criterion at convergence: 1188.8
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.3148 -0.5348 -0.0136 0.5724 3.2589
##
## Random effects:
## Groups Name Variance Std.Dev.
## family (Intercept) 0.686 0.8283
## Residual 1.519 1.2323
## Number of obs: 336, groups: family, 100
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) -0.07777 0.15277 -0.509
## item3 0.52337 0.02775 18.863
##
## Correlation of Fixed Effects:
## (Intr)
## item3 -0.699
Mối quan hệ giữa item1 và item3 là tích cực. Nhưng, chỉ để kiểm tra xem chúng ta có thể có mối tương quan tiêu cực ở đây không, hãy thao túng dữ liệu của chúng tôi:
# just going to multiply one column by -1
# to force this cor to be negative
dat2$neg.item3<-dat2$item3*-1
cor(dat2$item1, dat2$neg.item3)
## [1] -0.6819125
# now we have a negative relationship
# replace item3 with this manipulated value
mod4<-lmer(item1 ~ neg.item3 + (1|family), data=dat2)
summary(mod4)
## Linear mixed model fit by REML ['lmerMod']
## Formula: item1 ~ neg.item3 + (1 | family)
## Data: dat2
##
## REML criterion at convergence: 1188.8
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.3148 -0.5348 -0.0136 0.5724 3.2589
##
## Random effects:
## Groups Name Variance Std.Dev.
## family (Intercept) 0.686 0.8283
## Residual 1.519 1.2323
## Number of obs: 336, groups: family, 100
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) -0.07777 0.15277 -0.509
## neg.item3 -0.52337 0.02775 -18.863
##
## Correlation of Fixed Effects:
## (Intr)
## neg.item3 0.699
Vì vậy, có, mối quan hệ giữa các mặt hàng có thể là tiêu cực. Nhưng nếu chúng ta xem xét tỷ lệ phương sai giữa các gia đình trong mối quan hệ này, tức là ICC (gia đình), con số đó vẫn sẽ dương. Như trước:
temp2<-as.data.frame(VarCorr(mod4))$vcov
(temp2[1]^2)/(temp2[1]^2+temp2[2]^2)
## [1] 0.1694989
Vì vậy, đối với mối quan hệ giữa item1 và item3, khoảng 17% phương sai này là do phương sai giữa các gia đình. Và, chúng tôi vẫn cho phép có mối tương quan ngược chiều giữa các mục.