Thêm hiệu ứng ngẫu nhiên ảnh hưởng đến ước tính hệ số


10

Tôi luôn được dạy rằng các hiệu ứng ngẫu nhiên chỉ ảnh hưởng đến phương sai (lỗi) và các hiệu ứng cố định chỉ ảnh hưởng đến giá trị trung bình. Nhưng tôi đã tìm thấy một ví dụ trong đó các hiệu ứng ngẫu nhiên cũng ảnh hưởng đến giá trị trung bình - ước tính hệ số:

require(nlme)
set.seed(128)
n <- 100
k <- 5
cat <- as.factor(rep(1:k, each = n))
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
plot(x, y)

# simulate missing data
y[c(1:(n/2), (n*k-n/2):(n*k))] <- NA

m1 <- lm(y ~ x)
summary(m1)

m2 <- lm(y ~ cat + x)
summary(m2)

m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
summary(m3)

Bạn có thể thấy rằng hệ số ước tính cho xtừ mô hình m1là -0,013780, trong khi từ mô hình m3là 0,0011713 - cả hai đều khác biệt đáng kể so với không.

Lưu ý rằng khi tôi loại bỏ dòng mô phỏng dữ liệu bị thiếu, kết quả là như nhau (đó là ma trận đầy đủ).

Tại sao vậy?

PS: xin lưu ý tôi không phải là một nhà thống kê chuyên nghiệp, vì vậy nếu bạn chuẩn bị trả lời nhiều toán thì xin vui lòng thực hiện một số tóm tắt đơn giản cho người giả :-)


Tôi đoán bạn muốn nói "từ mô hình m3nó là 0,0011713" thay vì m2.
usεr11852

Tôi xin lỗi @ user11852, vâng bạn đúng, cảm ơn. (BTW, vì m2nó cũng hợp lệ (là chủ đề của một câu hỏi khác ).
Tò mò

Câu trả lời:


11

"Tôi luôn được dạy rằng các hiệu ứng ngẫu nhiên chỉ ảnh hưởng đến phương sai (lỗi) và các hiệu ứng cố định chỉ ảnh hưởng đến giá trị trung bình."

Như bạn đã phát hiện ra, điều này chỉ đúng với các bộ dữ liệu cân bằng, đầy đủ (nghĩa là không thiếu dữ liệu) mà không có dự đoán liên tục. Nói cách khác, đối với các loại dữ liệu / mô hình được thảo luận trong các văn bản ANOVA cổ điển. Trong những trường hợp lý tưởng này, các hiệu ứng cố định và hiệu ứng ngẫu nhiên có thể được ước tính độc lập với nhau.

Khi các điều kiện này không giữ được (vì chúng rất thường không có trong "thế giới thực"), các hiệu ứng cố định và ngẫu nhiên không độc lập. Về mặt thú vị, đây là lý do tại sao các mô hình hỗn hợp "hiện đại" được ước tính bằng các phương pháp tối ưu hóa lặp, thay vì được giải chính xác bằng một chút đại số ma trận như trong trường hợp ANOVA hỗn hợp cổ điển: để ước tính các hiệu ứng cố định, chúng ta phải biết các hiệu ứng ngẫu nhiên, nhưng để ước tính các hiệu ứng ngẫu nhiên, chúng ta phải biết các hiệu ứng cố định! Liên quan nhiều hơn đến câu hỏi hiện tại, điều này cũng có nghĩa là khi dữ liệu không cân bằng / không đầy đủ và / hoặc có các yếu tố dự đoán liên tục trong mô hình, sau đó điều chỉnh cấu trúc hiệu ứng ngẫu nhiên của mô hình hỗn hợp có thể thay đổi các ước tính của phần cố định của mô hình , và ngược lại.

Chỉnh sửa 2016-07-05. Từ các ý kiến: " Bạn có thể xây dựng hoặc đưa ra một trích dẫn về lý do tại sao các dự đoán liên tục sẽ ảnh hưởng đến các ước tính của phần cố định của mô hình? "

Các ước tính cho phần cố định của mô hình sẽ phụ thuộc vào ước tính cho phần ngẫu nhiên của mô hình - nghĩa là các thành phần phương sai ước tính - nếu (nhưng không chỉ nếu) phương sai của các yếu tố dự đoán khác nhau giữa các cụm. Điều này gần như chắc chắn sẽ đúng nếu bất kỳ dự đoán nào là liên tục (ít nhất là trong dữ liệu "thế giới thực" - về lý thuyết có thể điều này không đúng, ví dụ như trong một tập dữ liệu được xây dựng).


Bạn có thể xây dựng hoặc đưa ra một trích dẫn về lý do tại sao các dự đoán liên tục sẽ ảnh hưởng đến các ước tính của phần cố định của mô hình?
robin.datadrivers

@ robin.datadrivers Được rồi, tôi đã thêm một chút về điều đó
Jake Westfall

3

Ở cấp độ đầu tiên, tôi nghĩ rằng tất cả các bạn đang bỏ qua sự thu hẹp đối với các giá trị dân số; "Độ dốc cho mỗi đối tượng và các phần chặn từ mô hình hiệu ứng hỗn hợp gần với ước tính dân số hơn so với ước tính bình phương nhỏ nhất trong chủ đề. " [ref. 1]. Liên kết sau đây có lẽ cũng sẽ có ích ( Các mô tả thích hợp để xem xét các mô hình hỗn hợp của tôi là gì? ), Xem câu trả lời của Mike Lawrence).

Hơn nữa, tôi nghĩ rằng bạn không may mắn trong ví dụ đồ chơi của mình bởi vì bạn có một thiết kế cân bằng hoàn hảo khiến bạn có cùng ước tính chính xác trong trường hợp không có giá trị bị thiếu.

Hãy thử đoạn mã sau có cùng quy trình không có giá trị bị thiếu ngay bây giờ:

 cat <- as.factor(sample(1:5, n*k, replace=T) ) #This should be a bit unbalanced.
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) 

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits= 7,fixef(m3)) ==  round(digits=7, coef(m1)) #Not this time lad.
 #(Intercept)           x 
 #      FALSE       FALSE 

Bây giờ, vì thiết kế của bạn không cân bằng hoàn hảo, bạn không có cùng ước tính hệ số.

Trên thực tế nếu bạn chơi cùng với mẫu giá trị còn thiếu của bạn một cách ngớ ngẩn (ví dụ y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA:) vì vậy thiết kế của bạn vẫn hoàn toàn cân bằng, bạn sẽ lại nhận được các hệ số tương tự.

 require(nlme)
 set.seed(128)
 n <- 100
 k <- 5
 cat <- as.factor(rep(1:k, each = n))
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
 plot(x, y)

 # simulate missing data in a perfectly balanced way
 y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits=7,fixef(m3)) ==  round(digits=7, coef(m1)) #Look what happend now...
 #(Intercept)           x 
 #       TRUE        TRUE 

Bạn bị nhầm lẫn một chút bởi thiết kế hoàn hảo của thí nghiệm ban đầu của bạn. Khi bạn chèn NA vào một vị trí không cân bằng, bạn đã thay đổi mô hình về mức độ "sức mạnh" mà các chủ thể riêng lẻ có thể mượn lẫn nhau.

Nói tóm lại, sự khác biệt bạn thấy là do hiệu ứng co ngót và cụ thể hơn là do bạn đã làm biến dạng thiết kế cân bằng hoàn hảo ban đầu của mình với các giá trị thiếu không cân bằng hoàn hảo.

Tham chiếu 1: Douglas Bates lme4: Mô hình hiệu ứng hỗn hợp với R , trang 71-72

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.