Bối cảnh: Hiện tại tôi đang thực hiện một số công việc so sánh các mô hình phân cấp khác nhau của Bayes. Dữ liệu là số đo mức độ hạnh phúc của người tham gia i và thời gian j . Tôi có khoảng 1000 người tham gia và 5 đến 10 quan sát cho mỗi người tham gia.
Giống như với hầu hết các bộ dữ liệu theo chiều dọc, tôi hy vọng sẽ thấy một số dạng tương quan tự động, theo đó các quan sát gần hơn về thời gian có mối tương quan lớn hơn so với các khoảng cách xa hơn. Đơn giản hóa một vài điều, mô hình cơ bản như sau:
nơi tôi đang so sánh một mô hình không có độ trễ:
với mô hình độ trễ:
nơi là một người cấp trung bình và β 1 là tham số lag (tức là, hiệu ứng lag thêm một bội số của độ lệch của các quan sát từ điểm thời gian trước đó từ giá trị dự đoán về điều đó thời điểm). Tôi cũng đã phải làm một vài điều để ước tính y i 0 (nghĩa là quan sát trước lần quan sát đầu tiên).
Kết quả tôi nhận được chỉ ra rằng:
- Tham số độ trễ là khoảng 0,18, 95% CI [.14, .21]. Tức là nó khác không
- Độ lệch trung bình và DIC đều tăng thêm vài trăm khi độ trễ được đưa vào mô hình
- Kiểm tra dự báo sau cho thấy bằng cách bao gồm hiệu ứng trễ, mô hình có khả năng phục hồi tương quan tự động trong dữ liệu tốt hơn
Vì vậy, tóm lại, tham số độ trễ khác không và kiểm tra dự báo sau cho thấy mô hình độ trễ là tốt hơn; nhưng có nghĩa là lệch lạc và DIC cho rằng mô hình không có độ trễ là tốt hơn. Điều này đánh đố tôi.
Kinh nghiệm chung của tôi là nếu bạn thêm một tham số hữu ích thì ít nhất nó cũng sẽ làm giảm độ lệch trung bình (ngay cả khi sau một hình phạt phức tạp, DIC không được cải thiện). Hơn nữa, giá trị 0 cho tham số độ trễ sẽ đạt được độ lệch tương tự như mô hình không có độ trễ.
Câu hỏi
Tại sao việc thêm hiệu ứng trễ làm tăng độ lệch trung bình trong mô hình phân cấp Bayes ngay cả khi tham số độ trễ bằng không và nó cải thiện kiểm tra dự báo sau?
Suy nghĩ ban đầu
- Tôi đã thực hiện rất nhiều kiểm tra hội tụ (ví dụ: nhìn vào traceplots; kiểm tra sự thay đổi kết quả sai lệch giữa các chuỗi và trên các lần chạy) và cả hai mô hình dường như đã hội tụ ở phía sau.
- Tôi đã thực hiện kiểm tra mã trong đó tôi buộc hiệu ứng độ trễ bằng 0 và điều này đã phục hồi độ lệch mô hình không có độ trễ.
- Tôi cũng đã xem xét độ lệch trung bình trừ đi hình phạt sẽ mang lại độ lệch ở các giá trị dự kiến và những điều này cũng làm cho mô hình độ trễ xuất hiện tồi tệ hơn.
- Có lẽ có một số vấn đề với cách tôi ước tính thời điểm ngụ ý trước lần quan sát đầu tiên.
- Có lẽ hiệu ứng lag chỉ yếu trong dữ liệu này
- Tôi đã thử ước lượng mô hình bằng cách sử dụng tối đa khả năng sử dụng
lme
vớicorrelation=corAR1()
. Ước tính của tham số độ trễ là rất giống nhau. Trong trường hợp này, mô hình độ trễ có khả năng đăng nhập lớn hơn và AIC nhỏ hơn (khoảng 100) so với mô hình không có độ trễ (nghĩa là mô hình độ trễ tốt hơn). Vì vậy, điều này củng cố ý tưởng rằng việc thêm độ trễ cũng sẽ làm giảm độ lệch trong mô hình Bayes. - Có lẽ có một cái gì đó đặc biệt về dư lượng Bayes. Nếu mô hình độ trễ sử dụng sự khác biệt giữa dự đoán và y thực tế tại thời điểm trước đó, thì đại lượng này sẽ không chắc chắn. Do đó, hiệu ứng trễ sẽ hoạt động trong một khoảng đáng tin cậy của các giá trị còn lại như vậy.