Nhiều lần cắt ngang cho các biến kết quả


17

Tôi đã có một bộ dữ liệu về các thử nghiệm nông nghiệp. Biến phản ứng của tôi là tỷ lệ đáp ứng: log (điều trị / kiểm soát). Tôi quan tâm đến những gì làm trung gian cho sự khác biệt, vì vậy tôi đang chạy hồi quy meta RE (không có trọng số, vì dường như khá rõ ràng rằng kích thước hiệu ứng không tương thích với phương sai của ước tính).

Mỗi nghiên cứu báo cáo năng suất hạt, năng suất sinh khối, hoặc cả hai. Tôi không thể đánh giá năng suất hạt từ các nghiên cứu báo cáo năng suất sinh khối một mình, bởi vì không phải tất cả các nhà máy được nghiên cứu đều hữu ích cho ngũ cốc (ví dụ như bao gồm mía). Nhưng mỗi nhà máy sản xuất ngũ cốc cũng có sinh khối.

Đối với các đồng biến bị thiếu, tôi đã sử dụng phương pháp hồi quy hồi quy lặp (theo chương sách giáo khoa của Andrew Gelman). Nó dường như cho kết quả hợp lý, và toàn bộ quá trình nói chung là trực quan. Về cơ bản, tôi dự đoán các giá trị bị thiếu và sử dụng các giá trị dự đoán đó để dự đoán các giá trị bị thiếu và lặp qua từng biến cho đến khi mỗi biến xấp xỉ hội tụ (trong phân phối).

Có bất kỳ lý do tại sao tôi không thể sử dụng cùng một quy trình để buộc tội dữ liệu kết quả bị thiếu? Tôi có thể có thể hình thành một mô hình cắt cụt thông tin tương đối cho tỷ lệ đáp ứng sinh khối với tỷ lệ đáp ứng hạt, loại cây trồng và các hiệp phương sai khác mà tôi có. Sau đó, tôi sẽ tính trung bình các hệ số và VCV, và thêm hiệu chỉnh MI theo thông lệ tiêu chuẩn.

Nhưng những hệ số này đo lường được gì khi bản thân kết quả bị buộc tội? Việc giải thích các hệ số có khác gì so với MI chuẩn cho hiệp phương sai không? Nghĩ về nó, tôi không thể thuyết phục bản thân mình rằng điều này không hiệu quả, nhưng tôi không thực sự chắc chắn. Suy nghĩ và đề xuất cho việc đọc tài liệu được chào đón.


Tôi chưa có câu trả lời, nhưng một câu hỏi và hai lưu ý: 1) nhật ký của tỷ lệ dĩ nhiên là sự khác biệt của nhật ký. Vì vậy, DV của bạn tương đương với log (điều trị) - log (kiểm soát). 2) Bạn đang xem cuốn sách giáo khoa nào của Gelman?
Peter Flom - Tái lập Monica

Có, DV tương đương với log (điều trị) -log (kiểm soát). Tôi đang căn cứ vào thuật toán hồi quy lặp đi lặp lại trong chương (phi kỹ thuật) về dữ liệu bị mất mà Gelman đã đăng trực tuyến: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user 19/12/12

Tôi đã được thông báo rằng việc đưa ra kết quả dẫn đến lỗi Monte Carlo. Sẽ cố gắng tìm một liên kết sau. Đừng quên rằng bạn cần đảm bảo đưa kết quả vào các mô hình cắt bỏ cho các hiệp phương sai.
DL Dahly

Câu trả lời:


19

Như bạn nghi ngờ, việc sử dụng nhiều lần cắt ngang cho kết quả đo lường là hợp lệ. Có những trường hợp điều này hữu ích, nhưng nó cũng có thể có rủi ro. Tôi xem xét tình huống mà tất cả các đồng biến đã hoàn thành và kết quả không hoàn chỉnh.

Nếu mô hình cắt cụt là chính xác, chúng tôi sẽ thu được các kết luận hợp lệ về các ước tính tham số từ dữ liệu được liệt kê. Các kết luận thu được từ các trường hợp hoàn chỉnh có thể thực sự sai nếu sự thiếu sót có liên quan đến kết quả sau khi điều hòa trên bộ dự đoán, tức là theo MNAR. Vì vậy, việc cắt bỏ là hữu ích nếu chúng ta biết (hoặc nghi ngờ) rằng dữ liệu là MNAR.

Theo MAR, nhìn chung không có lợi ích nào để buộc tội kết quả và với số lượng tranh luận thấp, kết quả thậm chí có thể thay đổi nhiều hơn do lỗi mô phỏng. Có một ngoại lệ quan trọng cho việc này. Nếu chúng ta có quyền truy cập vào một biến hoàn chỉnh phụ trợ không phải là một phần của mô hình và có tương quan cao với kết quả, thì việc cắt bỏ có thể hiệu quả hơn đáng kể so với phân tích trường hợp hoàn chỉnh, dẫn đến ước tính chính xác hơn và khoảng tin cậy ngắn hơn. Một kịch bản phổ biến trong đó điều này xảy ra là nếu chúng ta có một thước đo kết quả rẻ cho tất cả mọi người và một biện pháp đắt tiền cho một tập hợp con.

Trong nhiều bộ dữ liệu, dữ liệu bị thiếu cũng xảy ra trong các biến độc lập. Trong những trường hợp này, chúng ta cần áp đặt biến kết quả vì phiên bản được liệt kê của nó là cần thiết để áp đặt các biến độc lập.


Cảm ơn, điều này phù hợp với trực giác của tôi, nhưng có lẽ bạn có thể chia sẻ một liên kết đến một nghiên cứu được công bố tốt mà áp đặt các biến phụ thuộc? Một trong những lý do chính mà tôi muốn áp đặt các biện pháp kết quả là tăng kích thước mẫu (từ khoảng 250 lên khoảng 450), để tạo điều kiện cho các điều khoản tương tác sản phẩm tenor bán tham số trong các yêu cầu df rất cao (trước khi chúng có được bị phạt, hạ edf). MAR là hợp lý trong trường hợp của tôi.
generic_user

1
Nó đã được thực hiện rộng rãi cho ANOVA để có được thiết kế cân bằng. Xem phần giới thiệu của RJA Little, Regression với thiếu X, JASA 1992. Tôi cho rằng bạn biết rằng việc tăng kích thước mẫu theo cách này không giúp bạn có được ước tính chính xác hơn. Đối với trường hợp các biến phụ trợ, hãy đọc phần về siêu hiệu quả trong DB Rubin, Đa mục tiêu sau 18+ năm, JASA 1996.
Stef van Buuren

1
"Theo MAR, nói chung không có lợi ích nào để buộc tội kết quả" - Tôi đã thấy điều này được đề cập trước đây, nhưng tôi không có bất kỳ tài liệu tham khảo nào cho nó - bạn có thể cung cấp một cái không?
Robert Long

Tôi nghĩ bạn có thể trích dẫn Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 cho điều đó, nhưng xin lưu ý các trường hợp ngoại lệ.
Stef van Buuren

1
@StefvanBuuren - phần lớn câu trả lời hữu ích, nhưng sự hiểu biết của tôi là "nếu chúng ta biết (hoặc nghi ngờ) rằng dữ liệu là MNAR" thì việc buộc tội không thể giải quyết vấn đề của chúng ta nhiều hơn phân tích trường hợp hoàn chỉnh. Điều này dường như nằm trong danh mục "không ăn trưa miễn phí".
rolando2

2

Dữ liệu kết quả là rất phổ biến và dẫn đến suy luận chính xác khi tính toán sai số ngẫu nhiên.

Nghe có vẻ như những gì bạn đang làm là một lần duy nhất, bằng cách đưa ra các giá trị còn thiếu với một giá trị trung bình có điều kiện theo một phân tích trường hợp hoàn chỉnh. Những gì bạn nên làm là nhiều lần cắt, trong đó, đối với các đồng biến liên tục, sẽ xảy ra lỗi ngẫu nhiên mà bạn đã quan sát thấy nếu bạn đo được các giá trị bị thiếu này. Thuật toán EM hoạt động theo cách tương tự bằng cách lấy trung bình trên một loạt các kết quả quan sát được.

Việc cắt bỏ một lần đưa ra ước tính chính xác của các tham số mô hình khi không có mối quan hệ phương sai trung bình, nhưng nó đưa ra các ước tính lỗi tiêu chuẩn sai lệch về 0, tỷ lệ lỗi loại I tăng. Điều này là do bạn đã "lạc quan" về mức độ lỗi mà bạn đã quan sát thấy nếu bạn đo các yếu tố này.

Đa mục tiêu là một quá trình lặp đi lặp lại tạo ra lỗi phụ gia cho việc cắt cụt trung bình có điều kiện, do đó, thông qua 7 hoặc 8 lần mô phỏng, bạn có thể kết hợp các mô hình và các lỗi của chúng để có được ước tính chính xác về các tham số mô hình và các lỗi tiêu chuẩn của chúng. Nếu bạn đã bỏ lỡ các kết quả và kết quả chung, thì sẽ có phần mềm trong SAS, STATA và R được gọi là nhiều lần thông qua các phương trình chuỗi trong đó các bộ dữ liệu "đã hoàn thành" (bộ dữ liệu với các giá trị được liệt kê là cố định và không ngẫu nhiên) được tạo ra các tham số ước tính từ mỗi tập dữ liệu hoàn chỉnh, ước tính tham số của chúng và các lỗi tiêu chuẩn được kết hợp bằng cách sử dụng một hình dạng toán học chính xác (chi tiết trong bài báo Van Buuren).

Sự khác biệt nhỏ giữa quy trình trong MI và quy trình bạn mô tả là bạn chưa tính đến thực tế là việc ước tính phân phối có điều kiện của kết quả bằng cách sử dụng dữ liệu được liệt kê sẽ phụ thuộc vào thứ tự bạn áp đặt các yếu tố nhất định. Bạn nên ước tính phân phối có điều kiện của điều kiện đồng biến bị thiếu về kết quả trong MI, nếu không, bạn sẽ nhận được ước tính tham số sai lệch.


Cảm ơn. Trước hết, tôi đang lập trình mọi thứ từ đầu trong R, không sử dụng MICE hoặc MI. Thứ hai, tôi đang tranh luận về việc rút ra một phân phối dự báo (được mô hình hóa), không chỉ là những kỳ vọng có điều kiện. Có phải đó là những gì bạn đang nói trong đoạn thứ hai? Nếu không, tôi đánh giá cao sự làm rõ. Ngoài ra, bạn đang đề cập đến giấy Royston nào? Đối với điểm cuối cùng của bạn - bạn có nói bất cứ điều gì phức tạp hơn "bạn nên đặt biến phụ thuộc của mình trong mô hình cắt bỏ."? Nếu vậy, tôi đánh giá rất cao sự làm rõ.
generic_user

Cuối cùng - Tôi không thực hiện việc cắt cụt đơn lẻ. Tôi phù hợp với 30 mô hình được điền đầy đủ dữ liệu và sử dụng công thức B V_b = W + (1 + 1 / m) từ Rubin.
generic_user

Giấy Royston đã được liên kết. Tôi thực sự có ý định liên kết với Van Buuren, người đã triển khai chương trình trong R và bao gồm các chi tiết tính toán: doc.utwente.nl/78938 MICE / MI là một quá trình. Nếu bạn đang tranh luận dựa trên mã được trồng tại nhà, bạn nên giải thích chi tiết hơn về các chi tiết. Phương tiện có điều kiện = giá trị dự đoán nếu mô hình là chính xác (hoặc gần như vậy, một giả định cần thiết). Nó phức tạp hơn "thêm kết quả", đó là bạn đang tranh luận về một số mẫu bị thiếu (ít nhất là 3, thiếu đồng biến / kết quả / thiếu chung).
AdamO

Nếu bạn đơn lẻ đưa ra giá trị dự đoán 30 lần, bạn sẽ nhận được kết quả tương tự 30 lần. Làm thế nào để bạn ước tính lỗi?
AdamO

fit,imp
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.