Từ góc độ thống kê, người ta có thể suy ra quan hệ nhân quả bằng cách sử dụng điểm số xu hướng với một nghiên cứu quan sát?


27

Câu hỏi: Từ quan điểm của nhà thống kê (hoặc một học viên), người ta có thể suy ra quan hệ nhân quả bằng cách sử dụng điểm số xu hướng với một nghiên cứu quan sát ( không phải là một thử nghiệm )?

Xin vui lòng, không muốn bắt đầu một cuộc chiến rực lửa hoặc một cuộc tranh luận cuồng tín.

Bối cảnh: Trong chương trình tiến sĩ thống kê của chúng tôi, chúng tôi chỉ tiếp xúc với suy luận nguyên nhân thông qua các nhóm làm việc và một vài phiên chủ đề. Tuy nhiên, có một số nhà nghiên cứu rất nổi bật trong các bộ phận khác (ví dụ HDFS, Xã hội học) đang tích cực sử dụng chúng.

Tôi đã chứng kiến ​​một số cuộc tranh luận khá sôi nổi về vấn đề này. Đây không phải là ý định của tôi để bắt đầu một ở đây. Điều đó nói rằng, những gì bạn đã gặp phải? Bạn có quan điểm gì? Ví dụ, một lập luận mà tôi đã nghe so với điểm số của xu hướng là một kỹ thuật suy luận nguyên nhân là người ta không bao giờ có thể suy ra nguyên nhân do bỏ qua sai lệch biến - nếu bạn bỏ qua một điều quan trọng, bạn sẽ phá vỡ chuỗi nguyên nhân. Đây có phải là một vấn đề không thể giải quyết?

Tuyên bố miễn trừ trách nhiệm: Câu hỏi này có thể không có câu trả lời chính xác - hoàn toàn tuyệt vời khi nhấp vào cw, nhưng cá nhân tôi rất quan tâm đến các câu trả lời và sẽ rất vui với một vài tài liệu tham khảo tốt bao gồm các ví dụ thực tế.

Câu trả lời:


16

Khi bắt đầu một bài viết nhằm mục đích thúc đẩy việc sử dụng các PS trong dịch tễ học, Oakes và Church (1) đã trích dẫn các tuyên bố của Hernán và Robins về tác dụng gây nhiễu trong dịch tễ học (2):

Bạn có thể đảm bảo rằng kết quả từ nghiên cứu quan sát của bạn không bị ảnh hưởng bởi nhiễu loạn không đo lường được? Câu trả lời duy nhất mà một nhà dịch tễ học có thể cung cấp là 'không'.

Điều này không chỉ để nói rằng chúng tôi không thể đảm bảo rằng kết quả từ các nghiên cứu quan sát là không thiên vị hoặc vô dụng (bởi vì, như @propofol nói, kết quả của chúng có thể hữu ích cho việc thiết kế RCT), nhưng PS cũng chắc chắn không cung cấp giải pháp hoàn chỉnh cho việc này vấn đề, hoặc ít nhất là không nhất thiết mang lại kết quả tốt hơn các phương pháp so khớp hoặc đa biến khác (xem ví dụ (10)).

Điểm số tỷ lệ (PS) là, bằng cách xây dựng, xác suất không phải là chỉ số nguyên nhân . Sự lựa chọn các hiệp phương thức nhập vào hàm số điểm xu hướng là yếu tố chính để đảm bảo độ tin cậy của nó, và như điểm yếu của chúng, chủ yếu là từ việc không kiểm soát các yếu tố gây nhiễu không quan sát được (rất có khả năng trong nghiên cứu hồi cứu hoặc kiểm soát trường hợp ) . Các yếu tố khác phải được xem xét: (a) sai chính tả mô hình sẽ ảnh hưởng đến ước tính hiệu ứng trực tiếp (tuy nhiên không thực sự nhiều hơn trong trường hợp OLS), (b) có thể thiếu dữ liệu ở cấp độ đồng biến, (c) PSs làm không khắc phục được các tác động hiệp đồng được biết là ảnh hưởng đến việc giải thích nguyên nhân (8,9).

Về phần tài liệu tham khảo, tôi tìm thấy các slide của Roger Newson - Nhân quả, các yếu tố gây nhiễu và điểm số của xu hướng - tương đối cân bằng về những ưu và nhược điểm của việc sử dụng điểm số của xu hướng, với các minh họa từ các nghiên cứu thực tế. Cũng có một số bài báo hay thảo luận về việc sử dụng điểm số xu hướng trong các nghiên cứu quan sát hoặc dịch tễ học môi trường hai năm trước trong Thống kê trong Y họcvà tôi gửi kèm theo một vài trong số chúng ở cuối (3-6). Nhưng tôi thích đánh giá của Pearl (7) vì nó đưa ra một viễn cảnh lớn hơn về các vấn đề nhân quả (các PS được thảo luận ở trang 117 và 130). Rõ ràng, bạn sẽ tìm thấy nhiều minh họa hơn bằng cách nhìn vào nghiên cứu ứng dụng. Tôi muốn thêm hai bài báo gần đây của William R Shadish trên trang web của Andrew Gelman (11,12). Việc sử dụng điểm số xu hướng được thảo luận, nhưng hai bài báo chủ yếu tập trung vào suy luận nguyên nhân trong các nghiên cứu quan sát (và cách so sánh với các cài đặt ngẫu nhiên).

Tài liệu tham khảo

  1. Oakes, JM và Church, TR (2007). Bình luận được mời: Các phương pháp cho điểm tiến bộ trong dịch tễ học . Tạp chí Dịch tễ học Hoa Kỳ , 165 (10), 1119-1121.
  2. Hernan MA và Robins JM (2006). Dụng cụ để suy luận nguyên nhân: giấc mơ của nhà dịch tễ học? Dịch tễ học , 17, 360-72.
  3. Rubin, D. (2007). Thiết kế so với phân tích các nghiên cứu quan sát về tác động nhân quả: Song song với việc thiết kế các thử nghiệm ngẫu nhiên . Thống kê trong Y học , 26, 20 Hàng36.
  4. Shrier, I. (2008). Thư gửi biên tập viên . Thống kê trong Y học , 27, 2740 Từ2741.
  5. Ngọc trai, J. (2009). Nhận xét về phương pháp điểm số xu hướng . Thống kê trong Y học , 28, 1415 Từ1424.
  6. Stuart, EA (2008). Phát triển các khuyến nghị thực tế cho việc sử dụng điểm số của xu hướng: Thảo luận về 'Một đánh giá quan trọng về kết quả phù hợp với điểm số trong tài liệu y khoa giữa năm 1996 và 2003' của Peter Austin . Thống kê trong Y học , 27, 2062 Từ2065.
  7. Ngọc trai, J. (2009). Suy luận nhân quả trong thống kê: Tổng quan . Khảo sát thống kê , 3, 96-146.
  8. Oakes, JM và Johnson, PJ (2006). Điểm số phù hợp với dịch tễ học xã hội . Trong các phương pháp trong dịch tễ học xã hội , JM Oakes và S. Kaufman (biên soạn), trang 364-386. Jossez-Bass.
  9. Höfler, M (2005). Suy luận nhân quả dựa trên phản tác dụng . Phương pháp nghiên cứu y học BMC , 5, 28.
  10. Winkelmayer, WC và Kurth, T. (2004). Điểm số tuyên truyền: giúp đỡ hay cường điệu? Ghép thận nhân tạo , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH và Steiner, PM (2008). Các thí nghiệm phi thương mại có thể mang lại câu trả lời chính xác không? Một thí nghiệm ngẫu nhiên so sánh các bài tập ngẫu nhiên và không ngẫu nhiên . JASA , 103 (484), 1334-1356.
  12. Cook, TD, Shadish, WR và Wong, VC (2008). Ba điều kiện theo đó các thí nghiệm và nghiên cứu quan sát tạo ra các ước tính nguyên nhân có thể so sánh: Những phát hiện mới từ các so sánh trong nghiên cứu . Tạp chí phân tích chính sách và quản lý , 27 (4), 724 đỉnh750.

11

Điểm số tỷ lệ thường được sử dụng trong các tài liệu phù hợp. Điểm số tỷ lệ sử dụng hiệp phương pháp tiền xử lý để ước tính khả năng được điều trị. Về cơ bản, một hồi quy (chỉ là OLS thông thường hoặc logit, probit, v.v.) được sử dụng để tính điểm xu hướng với điều trị vì kết quả của bạn và các biến tiền xử lý là các biến số của bạn. Sau khi có được ước tính tốt về điểm số xu hướng, các đối tượng có điểm số xu hướng tương tự, nhưng các phương pháp điều trị khác nhau được nhận, sẽ được khớp với nhau. Hiệu quả điều trị là sự khác biệt về phương tiện giữa hai nhóm này.

Rosenbaum và Rubin (1983) cho thấy rằng các đối tượng được điều trị và kiểm soát phù hợp chỉ sử dụng điểm số xu hướng là đủ để loại bỏ mọi sai lệch trong ước tính hiệu quả điều trị xuất phát từ các hiệp phương pháp tiền xử lý quan sát được sử dụng để xây dựng điểm số. Lưu ý rằng bằng chứng này yêu cầu sử dụng điểm số xu hướng thực sự, thay vì ước tính. Ưu điểm của phương pháp này là biến vấn đề khớp theo nhiều chiều (một chiều cho mỗi hiệp phương pháp tiền xử lý) thành trường hợp khớp đơn biến --- một sự đơn giản hóa tuyệt vời.

Rosenbaum, Paul R. và Donald B. Rubin. 1983. " Vai trò trung tâm của Điểm số trong các nghiên cứu quan sát đối với các hiệu ứng nhân quả ." Sinh trắc học. 70 (1): 41--55.


8

Chỉ có một thử nghiệm ngẫu nhiên tiềm năng có thể xác định quan hệ nhân quả. Trong các nghiên cứu quan sát, sẽ luôn luôn có cơ hội của một hiệp phương sai không được đo lường hoặc chưa biết làm cho việc xác định quan hệ nhân quả là không thể.

Tuy nhiên, các thử nghiệm quan sát có thể cung cấp bằng chứng về mối liên hệ chặt chẽ giữa x và y, và do đó rất hữu ích cho việc tạo ra giả thuyết. Những giả thuyết này sau đó cần được xác nhận bằng một thử nghiệm ngẫu nhiên.


Tôi hoàn toàn đồng ý với bạn. Một nghiên cứu quan sát có thể tốt để khám phá một số hiệp hội mà đến lượt người ta có thể kiểm tra bằng cách sử dụng một khuôn khổ chặt chẽ hơn nhiều (thử nghiệm ngẫu nhiên như bạn đề xuất).
Sympa

Biểu hiện gọn gàng. Không thể đồng ý với bạn nhiều hơn với từ, liên kết 'mạnh mẽ' giữa x và y.
Kevin Kang

7

Câu hỏi dường như liên quan đến hai điều thực sự cần được xem xét riêng. Đầu tiên là liệu người ta có thể suy ra quan hệ nhân quả từ một nghiên cứu quan sát hay không, và trên đó bạn có thể đối lập với quan điểm của Pearl, 2009, người lập luận có, miễn là bạn có thể mô hình hóa quy trình đúng, so với quan điểm @propofol, người sẽ tìm thấy nhiều đồng minh trong các môn học thực nghiệm và những người có thể chia sẻ một số suy nghĩ được thể hiện trong một bài tiểu luận khá mơ hồ nhưng dù sao cũng tốt) của Gerber et al (2004). Thứ hai, giả sử rằng bạn nghĩ rằng quan hệ nhân quả có thể được suy ra từ dữ liệu quan sát, bạn có thể tự hỏi liệu các phương pháp điểm xu hướng có hữu ích khi làm như vậy không. Phương pháp điểm số tỷ lệ bao gồm các chiến lược điều hòa khác nhau cũng như trọng số xu hướng nghịch đảo. Một đánh giá tốt được đưa ra bởi Lunceford và Davidian (2004).

Mặc dù có một chút nếp nhăn: so sánh điểm xu hướng và trọng số cũng được sử dụng trong phân tích các thí nghiệm ngẫu nhiên khi, ví dụ, có mối quan tâm đến việc tính toán "các hiệu ứng gián tiếp" và cả khi có vấn đề về sự suy giảm hoặc ngẫu nhiên không ngẫu nhiên ( trong trường hợp những gì bạn có giống như một nghiên cứu quan sát).

Tài liệu tham khảo

Gerber A, et al. 2004. "Ảo tưởng học hỏi từ nghiên cứu quan sát." Trong Shapiro I, et al, Các vấn đề và phương pháp trong nghiên cứu chính trị , Nhà xuất bản Đại học Cambridge.

Lunceford JK, Davidian M. 2004. "Sự phân tầng và trọng số thông qua điểm số xu hướng trong ước tính hiệu quả điều trị nguyên nhân: một nghiên cứu so sánh." Thống kê trong Y học 23 (19): 2937 Từ2960.

Pearl J. 2009. Nhân quả (Ed 2) , Nhà xuất bản Đại học Cambridge.


Thật tốt khi bạn trích dẫn toàn bộ cuốn sách từ Pearl.
chl

0

Sự khôn ngoan thông thường nói rằng chỉ những thử nghiệm ngẫu nhiên có kiểm soát (thí nghiệm "thực") mới có thể xác định được nguyên nhân.

Tuy nhiên, nó không đơn giản như thế.

Một lý do mà ngẫu nhiên có thể không đủ là trong các mẫu "nhỏ", luật số lượng lớn không "đủ mạnh" để đảm bảo rằng mỗi và mọi khác biệt đều được cân bằng. Câu hỏi là: "quá nhỏ" và khi nào bắt đầu "đủ lớn"? Saint-Mont (2015) lập luận ở đây rằng "đủ lớn" có thể bắt đầu trong hàng ngàn (n> 1000)!

Rốt cuộc, vấn đề là cân bằng sự khác biệt giữa các nhóm, để kiểm soát sự khác biệt. Vì vậy, ngay cả trong các thí nghiệm, cần hết sức cẩn thận để cân bằng sự khác biệt giữa các nhóm. Theo tính toán của Saint-Mont (2015), có thể là trong các mẫu nhỏ hơn, người ta có thể tốt hơn đáng kể với các mẫu phù hợp (cân bằng thủ công).

Như xác suất. Tất nhiên, xác suất không bao giờ có thể đưa ra câu trả lời kết luận - trừ khi xác suất là cực trị (không hoặc một). Tuy nhiên, trong khoa học, chúng tôi thấy mình thường xuyên phải đối mặt với các tình huống là chúng tôi không thể đưa ra câu trả lời kết luận vì công cụ rất khó. Do đó cần xác suất. Xác suất không gì khác hơn là một cách để thể hiện sự không chắc chắn của chúng tôi trong một tuyên bố. Như vậy, nó tương tự như logic; xem Briggs (2016) tại đây .

Vì vậy, xác suất sẽ giúp chúng ta nhưng sẽ không đưa ra câu trả lời kết luận, không có gì chắc chắn. Nhưng nó được sử dụng rất nhiều - để thể hiện sự không chắc chắn.

Cũng lưu ý rằng quan hệ nhân quả không phải là một câu hỏi thống kê. Giả sử hai phương tiện khác nhau "đáng kể". Không có nghĩa là biến nhóm là nguyên nhân của sự khác biệt trong biến đo? Không (không nhất thiết). Bất kể người ta sử dụng thống kê cụ thể nào - điểm số xu hướng, giá trị p, Yếu tố Bayes, v.v. - các phương pháp như vậy (thực tế) không bao giờ đủ để sao lưu các tuyên bố nguyên nhân.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.