Được phép bao gồm thời gian như một công cụ dự đoán trong các mô hình hỗn hợp?


10

Tôi luôn tin rằng thời gian không nên được sử dụng như một công cụ dự đoán trong hồi quy (bao gồm cả gam) bởi vì, sau đó, người ta chỉ đơn giản là "mô tả" chính xu hướng. Nếu mục đích của một nghiên cứu là tìm các thông số môi trường như nhiệt độ, vv giải thích phương sai trong đó, hãy nói, hoạt động của một loài động vật, thì tôi tự hỏi, làm thế nào thời gian có thể được sử dụng? làm proxy cho các tham số không đo lường?

Một số xu hướng về thời gian trên dữ liệu hoạt động của cá heo ở bến cảng có thể được nhìn thấy ở đây: -> Làm thế nào để xử lý các khoảng trống trong chuỗi thời gian khi thực hiện GAMM?

vấn đề của tôi là: khi tôi đưa thời gian vào mô hình của mình (tính bằng ngày julian), thì 90% tất cả các tham số khác trở nên không đáng kể (ts-co ngót mượt mà hơn từ mgcv loại bỏ chúng). Nếu tôi hết thời gian, thì một vài trong số đó rất quan trọng ...

Câu hỏi là: thời gian được cho phép như một công cụ dự đoán (thậm chí có thể cần thiết?) Hay nó đang làm rối tung phân tích của tôi?

Rất cám ơn trước

Câu trả lời:


12

Thời gian được cho phép; liệu nó là cần thiết sẽ phụ thuộc vào những gì bạn đang cố gắng để mô hình? Vấn đề bạn gặp phải là bạn có các đồng biến cùng xuất hiện để phù hợp với xu hướng dữ liệu, điều mà Thời gian có thể làm tốt như vậy nhưng sử dụng ít mức độ tự do hơn - do đó chúng bị loại bỏ thay vì Thời gian.

Nếu sở thích là mô hình hóa hệ thống, mối quan hệ giữa phản hồi và hiệp biến theo thời gian, thay vì mô hình hóa phản ứng thay đổi theo thời gian như thế nào, thì không bao gồm Thời gian là đồng biến. Nếu mục đích là mô hình hóa sự thay đổi mức trung bình của phản hồi, bao gồm Thời gian nhưng không bao gồm hiệp phương sai. Từ những gì bạn nói, có vẻ như bạn muốn cái trước chứ không phải cái sau và không nên bao gồm Thời gian trong mô hình của bạn. (Nhưng hãy xem xét các thông tin bổ sung dưới đây.)

Có một vài cảnh báo mặc dù. Đối với lý thuyết để giữ, phần dư nên là iid (hoặc id nếu bạn thư giãn giả định độc lập bằng cách sử dụng cấu trúc tương quan). Nếu bạn đang mô hình hóa phản hồi như là một hàm của hiệp phương sai và chúng không mô hình đầy đủ bất kỳ xu hướng nào trong dữ liệu, thì phần dư sẽ có xu hướng, vi phạm các giả định của lý thuyết, trừ khi cấu trúc tương quan phù hợp có thể đối phó với xu hướng này.

Ngược lại, nếu bạn đang mô hình hóa xu hướng trong phản ứng một mình (chỉ bao gồm Thời gian), có thể có sự thay đổi có hệ thống trong phần dư (về xu hướng phù hợp) không được giải thích theo xu hướng (Thời gian) và điều này cũng có thể vi phạm các giả định cho phần dư. Trong những trường hợp như vậy, bạn có thể cần bao gồm các đồng biến khác để hiển thị phần dư iid

Tại sao điều này là một vấn đề? Chà, khi bạn đang kiểm tra xem thành phần xu hướng có đáng kể hay không, hoặc liệu tác động của hiệp phương sai có đáng kể hay không, lý thuyết được sử dụng sẽ cho rằng phần dư là iid Nếu chúng không phải là giả định thì các giả định sẽ không được đáp ứng và giá trị p sẽ bị sai lệch.

Điểm quan trọng của tất cả những điều này là bạn cần mô hình hóa tất cả các thành phần khác nhau của dữ liệu sao cho phần dư là lý thuyết bạn sử dụng, để kiểm tra xem các thành phần được trang bị có quan trọng hay không, có hợp lệ không.

Ví dụ, xem xét dữ liệu theo mùa và chúng tôi muốn phù hợp với một mô hình mô tả sự thay đổi dài hạn trong dữ liệu, xu hướng. Nếu chúng ta chỉ mô hình hóa xu hướng chứ không phải biến đổi theo chu kỳ theo mùa, chúng ta không thể kiểm tra xem xu hướng được trang bị có đáng kể hay không vì phần dư sẽ không phù hợp với dữ liệu đó, chúng ta sẽ cần phải phù hợp với một mô hình có cả thành phần theo mùa và xu hướng thành phần mô hình null chỉ chứa thành phần theo mùa. Sau đó, chúng tôi sẽ so sánh hai mô hình bằng cách sử dụng thử nghiệm tỷ lệ khả năng tổng quát để đánh giá tầm quan trọng của xu hướng được trang bị. Điều này được thực hiện bằng cách sử dụng anova()trên các $lmethành phần của hai mô hình được trang bị bằng cách sử dụng gamm().


Kính gửi ông Gavin, cảm ơn rất nhiều vì những bình luận rất hữu ích của bạn. Tôi hy vọng rằng tôi cũng có thể giúp bạn sớm ra ngoài;) khi tôi thử GLRT với anova, nó sẽ cho tôi biết "đối tượng 'đã cố định" không tìm thấy' :(
Jens

1
@Jens cuộc gọi nên được anova(mod1$lme, mod2$lme). Nếu bạn đang điều chỉnh một mô hình không phải là Gaussian thì điều này có thể không hoạt động vì không có khả năng đăng nhập thực sự trong các phương thức PQL, làm tăng khả năng gần đúng trong tên PQL. Đây là một lý do để sử dụng gamm4 , nhưng sau đó bạn cần phải làm gì đó về cấu trúc tương quan vì lme4 không cho phép chúng.
Phục hồi Monica - G. Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.