Kết hợp điểm số sau khi nhiều lần cắt


34

Tôi đề cập đến bài báo này : Hayes JR, Groner JI. "Sử dụng nhiều điểm số chỉ tiêu và xu hướng để kiểm tra ảnh hưởng của ghế xe và sử dụng dây an toàn đối với mức độ nghiêm trọng của chấn thương từ dữ liệu đăng ký chấn thương." Phẫu thuật J Pediatr. 2008 tháng 5; 43 (5): 924-7.

Trong nghiên cứu này, nhiều lần cắt cụt đã được thực hiện để có được 15 bộ dữ liệu hoàn chỉnh. Điểm số tỷ lệ sau đó được tính toán cho mỗi tập dữ liệu. Sau đó, đối với mỗi đơn vị quan sát, một bản ghi được chọn ngẫu nhiên từ một trong 15 bộ dữ liệu đã hoàn thành (bao gồm cả điểm số xu hướng liên quan), do đó tạo ra một bộ dữ liệu cuối cùng được phân tích bằng cách khớp điểm số.

Câu hỏi của tôi là: Đây có phải là cách hợp lệ để thực hiện khớp điểm theo xu hướng sau nhiều lần cắt không? Có những cách khác để làm điều đó?

Đối với bối cảnh: Trong dự án mới của tôi, tôi nhằm mục đích so sánh hiệu quả của 2 phương pháp xử lý bằng cách sử dụng phương pháp so sánh điểm xu hướng. Có dữ liệu bị thiếu và tôi dự định sử dụng MICEgói trong R để tính các giá trị bị thiếu, sau đó twangthực hiện khớp điểm theo xu hướng và sau đó lme4để phân tích dữ liệu phù hợp.

Cập nhật1:

Tôi đã tìm thấy này giấy mà phải mất một cách tiếp cận khác nhau: Mitra, Robin và Reiter, Jerome P. (2011) xu thế điểm phù hợp với thiếu đồng biến qua lặp, nhiều khoản tính tuần tự [Tài liệu nghiên cứu]

Trong bài báo này, các tác giả tính toán điểm số của xu hướng trên tất cả các bộ dữ liệu được liệt kê và sau đó gộp chúng bằng cách tính trung bình, theo tinh thần của nhiều lần sử dụng quy tắc của Rubin để ước tính điểm - nhưng nó có thực sự áp dụng cho điểm số không?

Sẽ thật sự tuyệt vời nếu bất cứ ai trong CV có thể đưa ra câu trả lời với lời bình luận về 2 cách tiếp cận khác nhau này, và / hoặc bất kỳ cách nào khác ....

Câu trả lời:


20

Điều đầu tiên phải nói là, đối với tôi, phương pháp 1 (lấy mẫu) dường như không có nhiều giá trị - đó là loại bỏ các lợi ích của việc cắt bỏ nhiều lần, và giảm xuống chỉ còn một lần cho mỗi quan sát, như Stas đã đề cập. Tôi không thể thấy bất kỳ lợi thế trong việc sử dụng nó.

Có một cuộc thảo luận tuyệt vời về các vấn đề xung quanh phân tích điểm xu hướng với dữ liệu bị thiếu trong Hill (2004): Hill, J. "Giảm xu hướng trong ước tính hiệu quả điều trị trong nghiên cứu quan sát bị thiếu dữ liệu" Tài liệu làm việc của ISERP, 2004. Nó có thể tải xuống từ ở đây .

Bài viết xem xét hai cách tiếp cận để sử dụng nhiều lần cắt ngang (và cả các phương pháp khác để xử lý dữ liệu bị thiếu) và điểm số của xu hướng:

  • tính trung bình của điểm số xu hướng sau nhiều lần cắt ngang, tiếp theo là suy luận nguyên nhân (phương pháp 2 trong bài viết của bạn ở trên)

  • suy luận nguyên nhân bằng cách sử dụng từng bộ điểm số xu hướng từ nhiều lần cắt ngang theo sau là trung bình của các ước tính nguyên nhân.

Ngoài ra, bài viết xem xét liệu kết quả có nên được đưa vào như một công cụ dự đoán trong mô hình cắt cụt hay không.

Hill khẳng định rằng trong khi nhiều lần cắt cụt được ưu tiên hơn các phương pháp xử lý dữ liệu bị thiếu khác, nói chung, không có một ưu tiên nàolý do để thích một trong những kỹ thuật này hơn các kỹ thuật khác. Tuy nhiên, có thể có lý do để thích trung bình điểm số xu hướng, đặc biệt khi sử dụng các thuật toán phù hợp nhất định. Hill đã thực hiện một nghiên cứu mô phỏng trong cùng một bài báo và nhận thấy rằng việc tính trung bình các điểm của xu hướng trước khi suy luận nguyên nhân, khi bao gồm kết quả trong mô hình cắt cụt đã tạo ra kết quả tốt nhất về sai số bình phương trung bình và trung bình là điểm số trước, nhưng không có kết quả trong mô hình cắt cụt, tạo ra kết quả tốt nhất về độ lệch trung bình (sự khác biệt tuyệt đối giữa hiệu quả điều trị ước tính và thực tế). Nói chung, nên đưa kết quả vào mô hình cắt cụt (ví dụ xem tại đây ).

Vì vậy, có vẻ như phương pháp 2 của bạn là con đường để đi.


1
Tôi hiểu phương pháp số 2, nhưng tôi không biết cách triển khai nó trong R. Có ai có bất kỳ tài liệu tham khảo nào để chỉ cho tôi không?
sam

2
Mã R cho cả hai phương thức được cung cấp trong họa tiết cho cobaltgói có tên "Sử dụng coban với dữ liệu phức tạp". Bạn có thể truy cập nó ở đây: CRAN.R-project.org/package=cobalt
Noah

13

Có thể có một cuộc đụng độ của hai mô hình. Đa phương tiện là một giải pháp Bayes dựa trên mô hình rất nhiều: khái niệm về việc cắt cụt phù hợp về cơ bản nói rằng bạn cần lấy mẫu từ phân phối dữ liệu sau được xác định rõ, nếu không bạn bị sai lầm. Mặt khác, kết hợp điểm số là một quy trình bán tham số: một khi bạn đã tính được điểm số của xu hướng của mình (cho dù bạn có thể sử dụng ước tính mật độ hạt nhân, không nhất thiết phải là mô hình logit), bạn có thể thực hiện phần còn lại bằng cách đơn giản là lấy sự khác biệt giữa các quan sát được điều trị và không được điều trị với cùng một điểm số xu hướng, hiện tại không phải là tham số, vì không còn mô hình nào điều khiển các hiệp phương sai khác. Tôi khôngAbadie và Imbens (2008) đã thảo luận rằng nó thực sự không thể có được các lỗi tiêu chuẩn ngay trong một số tình huống khớp). Tôi sẽ tin tưởng nhiều hơn vào các cách tiếp cận mượt mà hơn như trọng số theo xu hướng nghịch đảo. Tài liệu tham khảo yêu thích của tôi về điều này là "Kinh tế lượng vô hại" , phụ đề "Một người đồng hành theo chủ nghĩa kinh nghiệm", và nhắm vào các nhà kinh tế, nhưng tôi nghĩ cuốn sách này nên được đọc cho các nhà khoa học xã hội khác, hầu hết các nhà thống kê sinh học và các nhà thống kê phi sinh học. rằng họ biết cách các ngành học khác tiếp cận phân tích dữ liệu.

Ở bất kỳ mức nào, chỉ sử dụng một trong số 15 dòng dữ liệu hoàn chỉnh mô phỏng cho mỗi lần quan sát là tương đương với một lần cắt cụt. Kết quả là, bạn mất hiệu quả so với tất cả 15 bộ dữ liệu đã hoàn thành và bạn không thể ước tính đúng các lỗi tiêu chuẩn. Trông giống như một thủ tục thiếu đối với tôi, từ mọi góc độ.

Tất nhiên, chúng tôi vui vẻ quét theo thảm giả định rằng cả mô hình đa biến và mô hình khuynh hướng đều đúng theo nghĩa là có tất cả các biến đúng trong tất cả các dạng hàm đúng. Có rất ít cách để kiểm tra điều đó (mặc dù tôi rất vui khi biết cách khác về các biện pháp chẩn đoán cho cả hai phương pháp này).


(+1) Đặc biệt đối với tôi, tôi không cảm thấy tốt về sự không liên tục được giới thiệu bởi việc thực hiện khớp theo nghĩa đen (tìm điều khiển với giá trị gần nhất có thể của điểm số xu hướng và bỏ qua phần còn lại) . Ghi điểm theo tỷ lệ luôn luôn gây ấn tượng mạnh với tôi.
hồng y

@cardinal, xem cập nhật.
StasK

Tôi thực sự đã thấy nhiều chỉ trích về IPTW hơn là tôi đã kết hợp bằng các phương pháp khác (tôi sẽ cần phải đọc lên). Xem hồi quy trọng số theo điểm số của xu hướng ( Freedman & Berk, 2008 ) và để biết ví dụ áp dụng, xem Bjerk, 2009 . Tôi không chắc chắn lý do tại sao bạn đề xuất Kinh tế lượng vô hại trong phản ứng ở đây, nhưng đó là một đề xuất tốt cho bất kỳ ai quan tâm đến nghiên cứu quan sát không hơn không kém.
Andy W

@Andy, mảnh Freedman & Berk dường như xử lý một tình huống đơn giản hơn nhiều khi bạn có thể mô hình hóa mọi thứ theo hồi quy logistic. Tôi hiểu rằng các phương pháp như PSM được áp dụng trong các tình huống lộn xộn hơn khi bạn có nhiều đồng biến hơn và bạn không tin tưởng mô hình đủ tốt để cho rằng nó được chỉ định chính xác. Họ nhận thấy rằng tình huống này thuận lợi cho việc cân, nhưng tôi nghĩ nó thuận lợi cho mô hình so với các phương pháp có thể khác.
StasK

2
Bởi vì dữ liệu của bạn không phải là iid, và định lý khả năng tối đa lớn về sự bằng nhau của Hessian nghịch đảo và sản phẩm bên ngoài của gradient không còn nữa, và cả hai đều không phải là ước lượng phương sai nhất quán. Người ta cần sử dụng công cụ ước tính phương sai sandwich, hay còn gọi là công cụ ước tính tuyến tính hóa trong thống kê khảo sát, hay còn gọi là công cụ ước tính mạnh mẽ màu trắng trong kinh tế lượng.
StasK

10

Tôi thực sự không thể nói về các khía cạnh lý thuyết của câu hỏi, nhưng tôi sẽ đưa ra kinh nghiệm của mình bằng cách sử dụng các mô hình PS / IPTW và nhiều lần cắt bỏ.

  1. Tôi chưa bao giờ nghe nói về ai đó sử dụng nhiều bộ dữ liệu được liệt kê và lấy mẫu ngẫu nhiên để xây dựng một bộ dữ liệu duy nhất. Điều đó không nhất thiết có nghĩa là nó sai nhưng đó là một cách tiếp cận lạ để sử dụng. Tập dữ liệu cũng không đủ lớn để bạn cần sáng tạo để chạy 3-5 mô hình thay vì chỉ một để tiết kiệm thời gian và tính toán.
  2. Quy tắc của Rubin và phương pháp gộp là một công cụ khá chung. Dựa vào kết quả được tính gộp, có thể được tính toán bằng cách chỉ sử dụng phương sai và ước tính, không có lý do gì tôi có thể thấy rằng nó không thể được sử dụng cho dự án của bạn - tạo dữ liệu được liệt kê, thực hiện phân tích trên mỗi bộ và sau đó gộp lại. Đó là những gì tôi đã làm, đó là những gì tôi đã thấy và trừ khi bạn có lý do cụ thể để không làm điều đó, tôi thực sự không thể thấy một lý do nào để đi với một điều gì đó kỳ lạ hơn - đặc biệt là nếu bạn không hiểu những gì đang diễn ra với phương pháp.

+1 Đây là một câu hỏi rất khó để cung cấp một câu trả lời hay vì nó dường như là một bài báo chuyên môn cao như vậy. Nhưng ngoài việc tuyên bố mất tiền thưởng cho một câu hỏi tương tự trước đó, OP đã thêm một câu hỏi cầu xin các giải pháp đã được chuyển sang meta. Tôi đã bình luận tương tự với bạn trong câu trả lời của tôi ở đó. Tôi đặc biệt nghi ngờ về việc liên quan đến mẫu từ tập hợp dữ liệu được nhân rộng.
Michael R. Chernick

Cảm ơn ! Bạn có bất kỳ tài liệu tham khảo cho nơi phương pháp 2 đã được sử dụng?
Joe King

@JoeKing Đáng buồn thay, không ra khỏi đầu của tôi.
Fomite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.