Về cơ bản bạn đúng về tổ chức dữ liệu. Nếu bạn có trường hợp được tổ chức như thế này:
ID M1 M2 M3 EVENT
Bạn có thể muốn sắp xếp lại dữ liệu để nó trông như thế này:
ID TIME EVENT
1 1 0
1 2 1
1 3 1
2 1 0
2 2 0
. . .
. . .
Tôi gọi đây là một chuyển đổi từ định dạng rộng sang định dạng dài. Nó được thực hiện dễ dàng trong R bằng cách sử dụng reshape()
hàm hoặc thậm chí dễ dàng hơn với reshape2
gói.
Cá nhân tôi sẽ giữ ID
trường cho việc sử dụng tiềm năng của nó trong việc xác định nguồn biến thể trong mô hình hiệu ứng hỗn hợp. Nhưng điều này là không cần thiết (như được chỉ ra bởi @Berndweiss). Các giả định sau đây bạn sẽ muốn làm như vậy. Nếu không, phù hợp với một mô hình tương tự glm(...,family=binomial)
mà không có các điều khoản hiệu ứng ngẫu nhiên.
Các lme4
gói vào R sẽ phù hợp với một hiệu ứng hỗn hợp mô hình hồi quy logistic tương tự như bạn đang nói về, ngoại trừ với một hiệu ứng ngẫu nhiên hoặc hai vào tài khoản cho biến trong các hệ số trên đối tượng ( ID
). Dưới đây sẽ là mã ví dụ để điều chỉnh mô hình ví dụ nếu dữ liệu của bạn được lưu trữ trong khung dữ liệu được gọi df
.
require(lme4)
ans <- glmer(EVENT ~ TIME + (1+TIME|ID), data=df, family=binomial)
Mô hình cụ thể này cho phép TIME
và các intercept
hệ số thay đổi ngẫu nhiên trên ID. Nói cách khác, đây là mô hình hỗn hợp tuyến tính phân cấp của các phép đo được lồng trong các cá nhân.
Một dạng thay thế của mô hình lịch sử sự kiện thời gian rời rạc chia TIME
thành các hình nộm rời rạc và khớp với nhau như một tham số. Đây thực chất là trường hợp riêng biệt của mô hình Cox PH vì đường cong nguy hiểm không bị giới hạn ở dạng tuyến tính (hoặc bậc hai, hoặc tuy nhiên bạn có thể tưởng tượng thời gian biến đổi). Mặc dù, bạn có thể muốn nhóm TIME
thành một tập hợp có thể quản lý (tức là nhỏ) các khoảng thời gian riêng biệt nếu có rất nhiều trong số chúng.
Các lựa chọn khác liên quan đến việc chuyển đổi thời gian để có được đường cong nguy hiểm của bạn. Phương pháp trước đó về cơ bản giúp bạn không phải làm điều này, nhưng phương pháp trước ít phân tích hơn phương pháp này (và trường hợp tuyến tính ban đầu tôi đặt ra) bởi vì bạn có thể có nhiều điểm thời gian và do đó, rất nhiều tham số phiền toái.
Một tài liệu tham khảo tuyệt vời về chủ đề này là Phân tích dữ liệu theo chiều dọc được áp dụng của Judith Singer và John Willet : Thay đổi mô hình và sự kiện xảy ra .
self-study
thẻ.)