Nếu "mối tương quan không bao hàm mối quan hệ nhân quả", thì nếu tôi tìm thấy mối tương quan có ý nghĩa thống kê, làm thế nào tôi có thể chứng minh được mối quan hệ nhân quả?


30

Tôi hiểu rằng mối tương quan không phải là nhân quả . Giả sử chúng ta có được mối tương quan cao giữa hai biến. Làm thế nào để bạn kiểm tra nếu mối tương quan này thực sự là do nguyên nhân? Hoặc, trong những điều kiện, chính xác, chúng ta có thể sử dụng dữ liệu thử nghiệm để suy ra mối quan hệ nhân quả giữa hai hoặc nhiều biến?


2
Nó sẽ yêu cầu dữ liệu thử nghiệm. Vui lòng mô tả thiết kế thử nghiệm mà bạn giới thiệu.
Frank Harrell

1
Thưa ông, tôi không có bất kỳ dữ liệu thử nghiệm nào. Tôi muốn hiểu loại thí nghiệm kiểm soát nào cần được thực hiện để suy luận nguyên nhân?
Manish Barnwal

4
Có rất nhiều thiết kế có thể. Nói tóm lại, bạn cố gắng kiểm soát vật lý tất cả các biến khác và thay đổi một yếu tố quan tâm hoặc ngẫu nhiên hóa ứng dụng của thao tác thử nghiệm, "tính trung bình" các tác động của tất cả các giải thích có thể khác.
Frank Harrell

2
Nói tóm lại, bạn cần biến thể ngoại sinh của một số loại.
abaumann

1
Giữa tương quan XYchọn cái này là nguyên nhân của cái kia sẽ giảm thiểu cảm giác trách nhiệm và tối đa hóa cảm giác của số phận.
ttnphns

Câu trả lời:


16

Một lý do rất có thể cho 2 biến tương quan là những thay đổi của chúng được liên kết với một biến thứ ba. Các lý do có khả năng khác là cơ hội (nếu bạn kiểm tra đủ các biến không tương quan cho tương quan, một số sẽ hiển thị tương quan) hoặc các cơ chế rất phức tạp bao gồm nhiều bước.

Xem http://tylervigen.com/ để biết ví dụ như thế này:

enter image description here

Để tự tin tuyên bố nguyên nhân của A -> B, bạn cần một thử nghiệm trong đó bạn có thể kiểm soát biến A và không ảnh hưởng đến các biến khác. Sau đó, bạn đo lường nếu mối tương quan của A và B vẫn tồn tại nếu bạn thay đổi biến của mình.

Đối với gần như tất cả các ứng dụng thực tế, hầu như không thể không ảnh hưởng đến các biến khác (thường không biết), do đó, điều tốt nhất chúng ta có thể làm là chứng minh sự vắng mặt của quan hệ nhân quả.

Để có thể nêu ra mối quan hệ nhân quả, bạn bắt đầu với giả thuyết rằng 2 biến có mối quan hệ nhân quả, sử dụng một thí nghiệm để bác bỏ giả thuyết và nếu bạn thất bại, bạn có thể khẳng định mức độ chắc chắn rằng giả thuyết đó là đúng. Mức độ chắc chắn của bạn cần cao đến mức nào tùy thuộc vào lĩnh vực nghiên cứu của bạn.

Trong nhiều trường, việc chạy song song 2 phần của thử nghiệm của bạn là một phần, một trong đó biến A được thay đổi và nhóm điều khiển trong đó biến A không thay đổi, nhưng thử nghiệm thì hoàn toàn giống nhau - ví dụ trong trường hợp thuốc bạn vẫn dính đối tượng bằng kim hoặc làm cho chúng nuốt thuốc. Nếu thí nghiệm cho thấy mối tương quan giữa A và B, nhưng không phải giữa A và B '(B của nhóm kiểm soát), bạn có thể giả sử quan hệ nhân quả.

Ngoài ra còn có nhiều cách khác để kết luận quan hệ nhân quả, nếu một thí nghiệm là không thể, hoặc không thể thực hiện được vì nhiều lý do (đạo đức, đạo đức, PR, chi phí, thời gian). Một cách phổ biến là sử dụng khấu trừ. Lấy một ví dụ từ một nhận xét: để chứng minh rằng hút thuốc gây ung thư ở người, chúng ta có thể sử dụng một thí nghiệm để chứng minh rằng hút thuốc gây ung thư ở chuột, sau đó chứng minh rằng có mối tương quan giữa hút thuốc và ung thư ở người, và suy luận rằng đó là vô cùng có khả năng hút thuốc gây ung thư ở người - bằng chứng này có thể được tăng cường nếu chúng ta cũng bác bỏ rằng ung thư gây ra hút thuốc. Một cách khác để kết luận quan hệ nhân quả là loại trừ các nguyên nhân khác của mối tương quan, để lại quan hệ nhân quả như là lời giải thích tốt nhất còn lại về mối tương quan - phương pháp này không phải lúc nào cũng được áp dụng, bởi vì đôi khi không thể loại bỏ tất cả các nguyên nhân có thể có của mối tương quan (được gọi là "đường dẫn cửa sau" trong một câu trả lời khác). Trong ví dụ về hút thuốc / ung thư, có lẽ chúng ta có thể sử dụng phương pháp này để chứng minh rằng hút thuốc lá chịu trách nhiệm cho nhựa đường trong phổi, bởi vì không có nhiều nguồn có thể cho điều đó.

Những cách khác để "chứng minh" quan hệ nhân quả không phải lúc nào cũng lý tưởng theo quan điểm khoa học, bởi vì chúng không mang tính kết luận như một thí nghiệm đơn giản hơn. Cuộc tranh luận về sự nóng lên toàn cầu là một ví dụ tuyệt vời để cho thấy việc loại bỏ quan hệ nhân quả chưa được chứng minh cụ thể bằng một thí nghiệm lặp lại dễ dàng hơn nhiều.

Để giải tỏa truyện tranh, đây là một ví dụ về một thí nghiệm hợp lý về mặt kỹ thuật, nhưng không được khuyến khích vì lý do phi khoa học (đạo đức, đạo đức, PR, chi phí):

Image taken from phroyd.tumblr.com


3
Đây là một điều kiện quá mạnh. Trong dịch tễ học, các yêu cầu ít nghiêm ngặt hơn bởi vì việc kiểm soát một thí nghiệm là không thực tế nhất, và tồi tệ nhất là phi đạo đức - "hút thuốc lá có gây ung thư không"
user295691 28/10/14

2
Ví dụ mà Pearl đưa ra cho thấy hút thuốc gây ung thư ở người là phương pháp cửa trước, theo đó tar được coi là một biến số trung gian giữa hút thuốc và ung thư. Tôi không biết ý của bạn là "không lý tưởng". Đó chắc chắn là lý tưởng hơn là buộc mọi người hút thuốc và xem liệu họ có bị ung thư không!
Neil G

1
@Neil "Chắc chắn lý tưởng hơn là ép mọi người hút thuốc và xem họ có bị ung thư không" - Nếu mục tiêu là chứng minh mối quan hệ nhân quả, tôi hoàn toàn không đồng ý. Mặt khác, nếu mục tiêu là để tránh một vấn đề đạo đức, giảm kinh phí hoặc một đám đông lynch, thì đó là lý tưởng hơn, vâng.
Peter

10

Bất kể thiết kế là thử nghiệm hay quan sát, mối liên hệ giữa biến A và kết quả Y phản ánh mối quan hệ nhân quả giữa A và Y nếu không có đường dẫn mở ngược giữa A và Y.

Trong một thiết kế thử nghiệm, điều này dễ dàng đạt được nhất bằng cách ngẫu nhiên tiếp xúc hoặc chỉ định điều trị. Ngẫu nhiên lý tưởng, hiệu quả điều trị liên quan là một ước tính không thiên vị về hiệu quả điều trị nguyên nhân theo các giả định về khả năng trao đổi (chỉ định điều trị độc lập với kết quả ngược thực tế), tính tích cực, v.v ...

Tài liệu tham khảo

Thoát vị, Robins. Ngọc suy luận nhân quả
. Suy luận nguyên nhân trong thống kê: Tổng quan

PS Bạn có thể google cho Suy luận nguyên nhân & các tên sau (để bắt đầu) để biết thêm thông tin về chủ đề: Judea Pearl, Donald Rubin, Miguil Hernan.


Hãy xem tại đây: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Tôi mâu thuẫn với tuyên bố của Ash: Bất kể thiết kế là thử nghiệm hay quan sát, mối liên hệ giữa biến A và kết quả Y phản ánh mối quan hệ nhân quả giữa A và Y nếu có không có đường dẫn cửa sau mở giữa A và Y. Ví dụ: Doanh số bán hàng trên băng, Y chết trong bể bơi; có mối tương quan, nhưng nguyên nhân khiến chúng tăng hoặc giảm là nhiệt độ. Có thể Ash có nghĩa là với các đường dẫn backlink mở tùy thuộc vào một biến thứ ba, nhưng sau đó công thức của anh ta rất không rõ ràng.
Karl

Con đường cửa sau trong ví dụ của bạn là mùa. Một đường dẫn cửa sau có nghĩa là một biến thứ ba.
Neil G

Đối với những người không quen thuộc với những đóng góp của Judea Pearl trong nghiên cứu về quan hệ nhân quả, có thể hữu ích khi đọc tiểu sử của anh ta từ trang web của Hiệp hội Máy tính, đã trao cho anh ta giải thưởng Turing 2011. Pearl thảo luận về sự cần thiết phải bao gồm nhiều cuộc thảo luận về suy luận nguyên nhân trong chương trình giảng dạy thống kê trong một cuộc phỏng vấn với Amstat News .
jthetzel

Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
gung - Tái lập Monica

3

Xem xét sự gia tăng tỷ lệ ly hôn, tương quan với sự gia tăng thu nhập của luật sư.

Theo trực giác có vẻ rõ ràng những số liệu này nên được tương quan. Nhiều cặp vợ chồng (nhu cầu) nộp đơn ly hôn nhiều hơn, vì vậy nhiều luật sư (cung cấp) tăng giá của họ.

Có vẻ như sự gia tăng tỷ lệ ly hôn gây ra sự gia tăng thu nhập của luật sư, bởi vì nhu cầu thêm từ các cặp vợ chồng khiến các luật sư tăng giá.

Hay là ngược? Điều gì sẽ xảy ra nếu các luật sư cố tình và độc lập tăng giá, sau đó dành thu nhập mới của họ cho quảng cáo ly hôn? Đó cũng có vẻ là một lời giải thích hợp lý.

Kịch bản này minh họa số lượng tùy ý của các biến thứ ba, giải thích mà một phân tích thống kê có thể thể hiện. Hãy xem xét những điều sau đây:

  1. Bạn không thể đo mọi datapoint,
  2. Bạn muốn loại bỏ mọi datapoint không giải thích,
  3. Bạn chỉ có thể biện minh lý do tại sao để loại bỏ một datapoint nếu bạn đo nó.

Bạn có một câu hỏi hóc búa. Bạn không thể đo lường mọi datapoint, nếu bạn muốn biện minh cho việc bỏ qua các datapoint không giải thích, bạn cần đo chúng. (Bạn có thể loại bỏ một số datapoint mà không cần đo chúng, nhưng ít nhất bạn cần phải chứng minh chúng.)

Không có bằng chứng về quan hệ nhân quả có thể chính xác trong một hệ thống không giới hạn.


2

Nếu A và B tương quan với nhau và sau khi bạn loại trừ sự trùng hợp, rất có thể A gây ra B hoặc B gây ra A hoặc một số nguyên nhân có thể chưa biết X gây ra cả A và B.

Bước đầu tiên sẽ là kiểm tra một cơ chế có thể. Bạn có thể nghĩ làm thế nào A có thể trường hợp B, hoặc ngược lại, hoặc loại nguyên nhân khác X có thể gây ra cả hai? (Điều này giả định rằng kiểm tra này rẻ hơn so với thực hiện một thử nghiệm cố gắng chứng minh nguyên nhân). Bạn hy vọng kết thúc ở một vị trí mà một thí nghiệm cho thấy quan hệ nhân quả trông có giá trị. Bạn có thể tiến hành nếu bạn không thể nghĩ ra một cơ chế (A gây ra B nhưng chúng tôi không biết tại sao lại có khả năng).

Trong thí nghiệm đó, bạn cần có khả năng điều khiển nguyên nhân bị nghi ngờ theo ý muốn (ví dụ: nếu nguyên nhân là "uống thuốc A" thì một số người sẽ uống thuốc, những người khác sẽ không uống thuốc). Sau đó, bạn thực hiện các biện pháp phòng ngừa thông thường, chọn người nhận hoặc không uống thuốc một cách ngẫu nhiên, cả bạn và những người được kiểm tra đều không biết ai đã uống thuốc và ai không. Bạn cũng cố gắng giữ cho phần còn lại của thí nghiệm bằng nhau (đưa viên thuốc A cho mọi người trong một căn phòng ấm áp đẹp đẽ với ánh nắng chiếu qua cửa sổ trong khi nhóm kia lấy một viên thuốc giả trong phòng bẩn, khó chịu chỉ có thể ảnh hưởng đến dữ liệu của bạn). Vì vậy, nếu bạn kết luận rằng sự khác biệt duy nhất là viên thuốc đó và nguyên nhân nhận hay không uống thuốc là một quyết định ngẫu nhiên không ảnh hưởng đến bất cứ điều gì khác,


2

Dữ liệu can thiệp (thử nghiệm) như được mô tả bởi gnasher và Peter là cách đơn giản nhất để tạo ra một trường hợp tốt cho mối quan hệ nhân quả. Tuy nhiên, chỉ có câu trả lời của Ash đề cập đến khả năng suy luận mối quan hệ nhân quả thông qua dữ liệu quan sát. Ngoài phương pháp cửa sau mà ông đề cập, phương pháp cửa trước là một cách khác để thiết lập quan hệ nhân quả dựa trên dữ liệu quan sát và một số giả định nguyên nhân. Những thứ này được phát hiện bởi Judea Pearl. Tôi đã cố gắng tóm tắt và cung cấp một tài liệu tham khảo cho những ở đây .


0

Để đưa ra tuyên bố nguyên nhân, bạn cần có cả Lấy mẫu ngẫu nhiên và Phân công ngẫu nhiên

  • Lấy mẫu ngẫu nhiên: mỗi cá nhân có xác suất bằng nhau được chọn cho nghiên cứu
  • Bài tập ngẫu nhiên: mỗi cá nhân trong thí nghiệm cho thấy một chút đặc điểm khác nhau.

Vì vậy, khi lựa chọn một nhóm điều trị và nhóm đối chứng từ nhóm được lấy mẫu ở trên, một số lượng bằng nhau của những người có đặc điểm tương tự phải nằm trong cả nhóm điều trị và nhóm đối chứng.

Nhóm điều trị là nhóm trong đó thuốc được cung cấp cho mọi người. Nhóm đối chứng là nhóm không dùng thuốc. Bạn cũng có thể định nghĩa một nhóm giả dược nơi các đối tượng không được cho dùng thuốc nhưng được cho biết rằng họ đang được sử dụng.

Cuối cùng, nếu các hiệu ứng có thể nhìn thấy trong nhóm điều trị nhưng không phải trong nhóm đối chứng, thì chúng ta có thể thiết lập quan hệ nhân quả.


Theo tôi, nhóm giả dược là hoàn toàn bắt buộc. Ngoài ra, những người chịu trách nhiệm xử lý các đối tượng thử nghiệm không được biết ai thuộc nhóm nào ("mù đôi"). Bất cứ điều gì ít hơn tôi sẽ xem xét chắc chắn không đáng tin cậy. Kiểm tra không dễ dàng.
mafu

Các thử nghiệm giả dược được kiểm soát ngẫu nhiên có tính xác thực hơn so với các thử nghiệm được kiểm soát ngẫu nhiên, nhưng các tuyên bố nguyên nhân có thể được thực hiện bằng các thử nghiệm ngẫu nhiên có kiểm soát
show_stopper

2
"Để đưa ra tuyên bố nguyên nhân, bạn cần có cả Lấy mẫu ngẫu nhiên và Phân công ngẫu nhiên" - điều này không đúng. Xem các phương pháp cửa trước và cửa sau.
Neil G
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.