Bối cảnh
Câu hỏi này sử dụng R, nhưng là về các vấn đề thống kê chung.
Tôi đang phân tích ảnh hưởng của các yếu tố tử vong (% tỷ lệ tử vong do bệnh và ký sinh trùng) đến tốc độ tăng trưởng dân số của bướm đêm theo thời gian, nơi quần thể ấu trùng được lấy mẫu từ 12 địa điểm mỗi năm một lần trong 8 năm. Dữ liệu tỷ lệ tăng dân số cho thấy một xu hướng chu kỳ rõ ràng nhưng không đều theo thời gian.
Phần dư từ một mô hình tuyến tính tổng quát đơn giản (tốc độ tăng trưởng ~% bệnh +% ký sinh trùng + năm) cho thấy xu hướng chu kỳ rõ ràng tương tự nhưng không đều theo thời gian. Do đó, các mô hình bình phương tối thiểu có cùng dạng cũng được gắn vào dữ liệu với các cấu trúc tương quan phù hợp để đối phó với tự tương quan thời gian, ví dụ đối xứng hỗn hợp, thứ tự quá trình tự phát 1 và cấu trúc tương quan trung bình di chuyển tự động.
Tất cả các mô hình đều chứa các hiệu ứng cố định giống nhau, được so sánh bằng AIC và được gắn bởi REML (để cho phép so sánh các cấu trúc tương quan khác nhau của AIC). Tôi đang sử dụng gói R nlme và chức năng gls.
Câu hỏi 1
Phần dư của các mô hình GLS vẫn hiển thị các mẫu chu kỳ gần như giống hệt nhau khi được vẽ theo thời gian. Các mẫu như vậy sẽ luôn duy trì, ngay cả trong các mô hình giải thích chính xác cấu trúc tự tương quan?
Tôi đã mô phỏng một số dữ liệu đơn giản nhưng tương tự trong R bên dưới câu hỏi thứ hai của tôi, điều này cho thấy vấn đề dựa trên sự hiểu biết hiện tại của tôi về các phương pháp cần thiết để đánh giá các mẫu tự tương quan tạm thời trong phần dư của mô hình , mà bây giờ tôi biết là sai (xem câu trả lời).
Câu hỏi 2
Tôi đã trang bị các mô hình GLS với tất cả các cấu trúc tương quan hợp lý có thể với dữ liệu của mình, nhưng không có cấu trúc nào thực sự phù hợp hơn GLM mà không có cấu trúc tương quan: chỉ một mô hình GLS tốt hơn một chút (điểm AIC = 1,8 thấp hơn), trong khi tất cả các phần còn lại có giá trị AIC cao hơn. Tuy nhiên, đây chỉ là trường hợp khi tất cả các mô hình được gắn bởi REML, không phải ML trong đó các mô hình GLS rõ ràng tốt hơn nhiều, nhưng tôi hiểu từ sách thống kê, bạn chỉ phải sử dụng REML để so sánh các mô hình với các cấu trúc tương quan khác nhau và các hiệu ứng cố định giống nhau vì các lý do Tôi sẽ không chi tiết ở đây.
Do tính chất tự tương quan rõ ràng theo thời gian của dữ liệu, nếu không có mô hình nào tốt hơn vừa phải so với GLM đơn giản thì cách thích hợp nhất để quyết định sử dụng mô hình nào để suy luận, giả sử tôi đang sử dụng một phương pháp thích hợp (cuối cùng tôi muốn sử dụng AIC để so sánh các kết hợp biến khác nhau)?
Q1 'mô phỏng' khám phá các mẫu dư trong các mô hình có và không có cấu trúc tương quan phù hợp
Tạo biến trả lời mô phỏng với hiệu ứng theo chu kỳ là 'thời gian' và hiệu ứng tuyến tính dương là 'x':
time <- 1:50
x <- sample(rep(1:25,each=2),50)
y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1)
y sẽ hiển thị xu hướng theo chu kỳ theo 'thời gian' với biến thể ngẫu nhiên:
plot(time,y)
Và mối quan hệ tuyến tính tích cực với 'x' với biến thể ngẫu nhiên:
plot(x,y)
Tạo mô hình phụ gia tuyến tính đơn giản của "y ~ time + x":
require(nlme)
m1 <- gls(y ~ time + x, method="REML")
Mô hình hiển thị các mẫu chu kỳ rõ ràng trong phần dư khi được vẽ theo 'thời gian', như mong đợi:
plot(time, m1$residuals)
Và những gì nên là tốt, rõ ràng thiếu bất kỳ mô hình hoặc xu hướng nào trong phần dư khi được vẽ trên 'x':
plot(x, m1$residuals)
Một mô hình đơn giản của "y ~ time + x" bao gồm cấu trúc tương quan tự động của đơn hàng 1 sẽ phù hợp với dữ liệu tốt hơn nhiều so với mô hình trước đó vì cấu trúc tự tương quan, khi được đánh giá bằng AIC:
m2 <- gls(y ~ time + x, correlation = corAR1(form=~time), method="REML")
AIC(m1,m2)
Tuy nhiên, mô hình vẫn sẽ hiển thị phần dư tương tự 'gần đúng' theo thời gian:
plot(time, m2$residuals)
Cảm ơn bạn rất nhiều cho bất kỳ lời khuyên.