Trong một nghiên cứu theo chiều dọc, tôi có nên đánh giá kết quả Y, được đo tại thời điểm 2, đối với các cá nhân bị mất theo dõi không?


10

Tôi có các biện pháp lặp lại ở 2 lần điểm trong một mẫu người. Có 18k người ở lần 1 và 13k ở lần 2 (mất 5000 để theo dõi).

Tôi muốn hồi quy một kết quả Y đo được tại thời điểm 2 (và kết quả không thể đo được tại thời điểm 1) trên tập hợp các yếu tố dự đoán X được đo tại thời điểm 1. Tất cả các biến có một số dữ liệu bị thiếu. Hầu hết nó xuất hiện tương đối ngẫu nhiên, hoặc sự mất tích dường như được mô tả tốt bởi dữ liệu quan sát được. Tuy nhiên, phần lớn sự thiếu sót trong kết quả Y là do mất theo dõi. Tôi sẽ sử dụng nhiều lần cắt bỏ (R :: chuột) và sẽ sử dụng bộ dữ liệu đầy đủ để áp đặt các giá trị cho X, nhưng tôi đã nhận được 2 lời khuyên mâu thuẫn liên quan đến việc buộc tội của Y:

1) Impute Y từ X và V (V = các biến phụ trợ hữu ích) trong mẫu đầy đủ 18k.

2) Không áp đặt Y trong các cá nhân bị mất để theo dõi (và do đó loại bỏ chúng khỏi bất kỳ mô hình hồi quy tiếp theo nào).

Cái trước có ý nghĩa bởi vì thông tin là thông tin, vậy tại sao không sử dụng tất cả; Nhưng điều sau cũng có ý nghĩa, theo một cách trực quan hơn - có vẻ như sai lầm khi áp đặt kết quả cho 5000 người dựa trên Y ~ X + V, sau đó quay lại và ước tính Y ~ X.

Cái nào đúng (hơn)?

Câu hỏi trước này rất hữu ích, nhưng không trực tiếp giải quyết vấn đề thiếu do mất theo dõi (mặc dù có lẽ câu trả lời là như nhau; tôi không biết).

Nhiều lần cắt ngang cho các biến kết quả


Điều này có vẻ mâu thuẫn với tôi - bạn có thể giải thích không?: "Hầu hết nó xuất hiện tương đối ngẫu nhiên, hoặc sự mất tích dường như được mô tả tốt bởi dữ liệu quan sát được."
rolando2

1
Nhiều lần cắt bỏ và hầu hết các thủ tục cắt cụt khác yêu cầu dữ liệu của bạn bị thiếu một cách ngẫu nhiên (MAR). Cần phải hiểu cơ chế tiêu hao trong nghiên cứu của bạn. Tôi nghi ngờ rằng trong các nghiên cứu tiếp theo của bạn, tuy nhiên, các giá trị còn thiếu của bạn có thể không phải là MAR hoặc MCAR.
StatsStudent 3/2/2015

Câu trả lời:


2

Tôi nghĩ rằng đây là một trường hợp thiết bị. Bạn muốn một X bị thiếu, không phải là Y.

Y~X

Nhưng X thường xuyên bị thiếu hoặc không phù hợp.

X~Z and Z does not impact Y- except through X.

Sau đó, bạn có thể chạy:

 X~Z
 Y~Predicted(X)

Và yêu cầu một số điều chỉnh cho các lỗi tiêu chuẩn.

Bạn cũng có thể muốn xem xét quy trình 2 bước của Heckmann nếu bạn có nhiều tiêu hao mẫu. http://en.wikipedia.org/wiki/Heckman_correction


2

Tôi sẽ tranh luận rằng không phải là thích hợp nhất.

Nói chung là không phù hợp khi dữ liệu không phải là MAR hoặc MCAR và dữ liệu hiếm khi xảy ra theo cách đó. Khi đưa ra các giá trị của bạn , đó có thể là một giả định hợp lý để thực hiện, nhưng chắc chắn không phải cho dữ liệu của bạn .XY

Việc bỏ tất cả dữ liệu bị thiếu khỏi dữ liệu của bạn khiến các tham số của bạn bị sai lệch (nếu dữ liệu không phải là MCAR, xem ở trên) và làm giảm đáng kể độ chính xác của ước tính của bạn. Đây là một phân tích "trường hợp hoàn chỉnh" và không thể thực hiện được.

Tôi sẽ đề nghị xem xét các phương pháp phân tích sinh tồn ngoài kia. Đây là những phương pháp được thiết kế để phân tích dữ liệu của bạn do một số kết quả của bạn không được quan sát do kiểm duyệt. Có những mô hình sẽ tính đến điều này nếu bạn có thể xác định những quan sát nào được kiểm duyệt.Y

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.