Tôi có các biện pháp lặp lại ở 2 lần điểm trong một mẫu người. Có 18k người ở lần 1 và 13k ở lần 2 (mất 5000 để theo dõi).
Tôi muốn hồi quy một kết quả Y đo được tại thời điểm 2 (và kết quả không thể đo được tại thời điểm 1) trên tập hợp các yếu tố dự đoán X được đo tại thời điểm 1. Tất cả các biến có một số dữ liệu bị thiếu. Hầu hết nó xuất hiện tương đối ngẫu nhiên, hoặc sự mất tích dường như được mô tả tốt bởi dữ liệu quan sát được. Tuy nhiên, phần lớn sự thiếu sót trong kết quả Y là do mất theo dõi. Tôi sẽ sử dụng nhiều lần cắt bỏ (R :: chuột) và sẽ sử dụng bộ dữ liệu đầy đủ để áp đặt các giá trị cho X, nhưng tôi đã nhận được 2 lời khuyên mâu thuẫn liên quan đến việc buộc tội của Y:
1) Impute Y từ X và V (V = các biến phụ trợ hữu ích) trong mẫu đầy đủ 18k.
2) Không áp đặt Y trong các cá nhân bị mất để theo dõi (và do đó loại bỏ chúng khỏi bất kỳ mô hình hồi quy tiếp theo nào).
Cái trước có ý nghĩa bởi vì thông tin là thông tin, vậy tại sao không sử dụng tất cả; Nhưng điều sau cũng có ý nghĩa, theo một cách trực quan hơn - có vẻ như sai lầm khi áp đặt kết quả cho 5000 người dựa trên Y ~ X + V, sau đó quay lại và ước tính Y ~ X.
Cái nào đúng (hơn)?
Câu hỏi trước này rất hữu ích, nhưng không trực tiếp giải quyết vấn đề thiếu do mất theo dõi (mặc dù có lẽ câu trả lời là như nhau; tôi không biết).