Khi nào mối tương quan có thể hữu ích mà không có quan hệ nhân quả?


27

Một câu nói thú cưng của nhiều nhà thống kê là "Tương quan không ngụ ý nhân quả". Điều này chắc chắn là đúng, nhưng một điều mà DOES dường như ngụ ý ở đây là mối tương quan có rất ít hoặc không có giá trị. Điều này có đúng không? Có phải là vô ích khi có kiến ​​thức rằng hai biến có tương quan?

Tôi không thể tưởng tượng đó là trường hợp. Tôi không quen thuộc lắm với phân tích dự đoán, nhưng có vẻ như nếu Xlà một người dự đoán Y, nó sẽ hữu ích trong việc dự đoán các giá trị trong tương lai Ydựa trên X, bất kể nguyên nhân.

Tôi có không chính xác khi nhìn thấy giá trị trong tương quan? Và nếu không, trong những tình huống nào một nhà thống kê hoặc nhà khoa học dữ liệu có thể sử dụng mối tương quan mà không có nguyên nhân?


5
Theo tôi, cụm từ "quan hệ nhân quả không bao hàm mối tương quan" thường bị sử dụng sai để ám chỉ rằng số liệu thống kê không phải luôn luôn đáng tin cậy (đúng, nhưng không phải luôn luôn do thiếu tính nhân quả). Tôi trở nên trầm trọng hơn khi tôi thấy mọi người bỏ cụm từ này để tham khảo lý do tại sao một phân tích dự đoán là sai. Ví dụ: facebook.com/notes/mike-develin/debunking-princeton/NH là ví dụ tuyệt vời về cả phân tích khủng khiếp và gỡ lỗi khủng khiếp cho phân tích khủng khiếp.
Vách đá AB

10
Chẳng hạn, giả sử bạn thấy rằng sống ở một thành phố nào đó có tương quan với cái chết sớm. Bạn không thể kết luận rằng sống ở thành phố đó gây ra cái chết sớm, cũng như việc mọi người rời khỏi thành phố đó sẽ giúp họ sống lâu hơn. . bạn.
Nate Eldredge

2
Nhiều người chết ở miền nam nước Anh, @NateEldredge. Đó là bởi vì mọi người nghỉ hưu ở đó.
TRiG

1
Sự vắng mặt của mối tương quan mang nhiều ý nghĩa hơn, được cho là.
Raphael

Tham chiếu xkcd bắt buộc: xkcd.com/552
vsz

Câu trả lời:


32

Tương quan (hoặc bất kỳ biện pháp liên kết nào khác) rất hữu ích cho dự đoán bất kể nguyên nhân. Giả sử rằng bạn đo lường một mối liên kết rõ ràng, ổn định giữa hai biến. Điều này có nghĩa là việc biết mức độ của một biến cũng cung cấp cho bạn một số thông tin về một biến quan tâm khác, mà bạn có thể sử dụng để giúp dự đoán một biến là một hàm của biến khác và quan trọng nhất là thực hiện một số hành động dựa trên dự đoán đó . Thực hiện hành động liên quan đến việc thay đổi một hoặc nhiều biến số, chẳng hạn như khi đưa ra khuyến nghị tự động hoặc sử dụng một số can thiệp y tế. Tất nhiên, bạn có thể đưa ra dự đoán tốt hơn và hành động hiệu quả hơn nếu bạn có cái nhìn sâu sắc hơn về mối quan hệ trực tiếp hoặc gián tiếp giữa hai biến. Cái nhìn sâu sắc này có thể liên quan đến các biến khác, bao gồm cả các không gian và thời gian.


4
Tương quan không phải lúc nào cũng hữu ích cho dự đoán. Trong trường hợp nhân quả ngược, có những khía cạnh thời gian quan trọng không thể luôn luôn được kiểm soát. Chúng ta đang phải đối mặt với điều này mọi lúc với bệnh Alzheimer. Chúng ta liên tục đập đầu vào tường cố gắng phân biệt: những dấu ấn sinh học mà chúng ta tìm thấy trong não bị ảnh hưởng AD gây ra bệnh hay do bệnh gây ra ?
AdamO

1
@AdamO Tôi nghĩ rằng câu trả lời của tôi bao gồm cơ sở đó trong một hoặc hai câu cuối cùng, vì vậy tôi không đồng ý với bạn.
Cân bằng Brash

1
Vấn đề với quan hệ nhân quả thực sự chỉ phát sinh nếu bạn đang cố gắng diễn giải mô hình dự đoán của mình. (Tất nhiên đây là những gì chúng ta thường quan tâm đến khoa học). Khi chúng ta thấy rằng dấu ấn sinh học Alà một yếu tố dự đoán rất tốt, sẽ rất hấp dẫn khi tuyên bố rằng đây cũng là nguyên nhân gây bệnh - Và như đã đề cập trong các bình luận, rất dễ đưa ra kết luận sai. Nếu chúng ta chỉ muốn đưa ra dự đoán, ví dụ cho biết liệu bệnh nhân có mắc bệnh hay không, không có vấn đề gì với mối tương quan.
cel

1
Đây là không đúng sự thật và đây là một ví dụ tại sao. Nếu hành động theo dự đoán của bạn liên quan đến việc thay đổi một biến số và hy vọng mục tiêu cũng thay đổi, nhưng thực tế không có liên kết trực tiếp hoặc mối quan hệ nhân quả đi theo hướng khác, thì bạn sẽ có hành động sai. Và trước khi bạn nói, "nhưng trong ví dụ đó bạn đang diễn giải mô hình", tôi nói, "trong kịch bản nào bạn sẽ KHÔNG rút ra suy luận ngay cả từ một mô hình có nghĩa là để dự đoán?" Trả lời: khi bạn không đặt nhiều niềm tin vào các mối quan hệ nhân quả mà mô hình của bạn ngụ ý.
Cân bằng Brash

1
@BrashEquilibrium: Có rất nhiều cách để hành động theo một dự đoán không liên quan đến việc thay đổi các biến được sử dụng để có được dự đoán theo bất kỳ cách nào. Quan tâm đến việc liệu cửa hàng của bạn có nên dự trữ găng tay len không? Việc biết bao nhiêu kem bạn đã bán gần đây có thể (trong trường hợp không có giả thuyết về nguồn dữ liệu trực tiếp hơn, tất nhiên) làm cho một dự đoán tốt.
Ilmari Karonen

17

Có rất nhiều điểm tốt ở đây rồi. Hãy để tôi giải nén yêu cầu của bạn rằng "có vẻ như nếu Xlà một công cụ dự đoán Y, nó sẽ hữu ích trong việc dự đoán các giá trị trong tương lai Ydựa trên X, bất kể quan hệ nhân quả" một chút. Bạn đã đúng: Nếu tất cả những gì bạn muốn là có thể dự đoán một Ygiá trị chưa biết từ một Xgiá trị đã biết và một mối quan hệ ổn định đã biết, tình trạng nguyên nhân của mối quan hệ đó là không liên quan. Xem xét điều đó:

  • Bạn có thể dự đoán một hiệu ứng từ một nguyên nhân. Đây là trực quan và không gây tranh cãi.
  • Bạn cũng có thể dự đoán một nguyên nhân từ kiến ​​thức về một hiệu ứng. Một số, nhưng rất ít, những người bị ung thư phổi không bao giờ hút thuốc. Kết quả là, nếu bạn biết ai đó bị ung thư phổi, bạn có thể dự đoán chắc chắn rằng họ là / là người hút thuốc, mặc dù thực tế rằng hút thuốc là nguyên nhân và ung thư là hiệu quả. Nếu cỏ trong sân ẩm ướt và vòi phun nước không chạy, bạn có thể dự đoán rằng trời đã mưa, mặc dù mưa là nguyên nhân và cỏ ướt chỉ là tác động. V.v.
  • Bạn cũng có thể dự đoán một hiệu ứng chưa biết từ một hiệu ứng đã biết của cùng một nguyên nhân. Ví dụ: nếu Billy và Bobby là anh em sinh đôi giống hệt nhau và tôi chưa bao giờ gặp Billy, nhưng tôi biết rằng Bobby là 5 '10' (178 cm), tôi có thể dự đoán Billy cũng tự tin 178 cm, mặc dù thực tế là không phải chiều cao của Billy gây ra chiều cao của Bobby cũng như chiều cao của Bobby không gây ra chiều cao của Billy.

7
Chỉ để đặt tên cho danh mục của bạn: Ba loại dự đoán của bạn được gọi là (theo thứ tự) khấu trừ , bắt cóccảm ứng .
Neil G

12

Họ không đánh giá cao tầm quan trọng của mối tương quan. Chỉ là xu hướng là giải thích mối tương quan là quan hệ nhân quả.

Lấy việc cho con bú làm ví dụ hoàn hảo. Các bà mẹ hầu như luôn diễn giải những phát hiện (nghiên cứu quan sát ') về việc cho con bú như một gợi ý về việc họ có nên cho con bú thực sự hay không. Đúng là, trung bình, trẻ sơ sinh bú sữa mẹ có xu hướng khỏe mạnh hơn theo tuổi ngay cả sau khi kiểm soát tuổi mẹ và gia đình theo chiều dọc, tình trạng kinh tế xã hội, v.v. Điều này không có nghĩa là cho con bú một mình một phần đóng vai trò trong sự phát triển sớm của sự điều chỉnh sự thèm ăn. Mối quan hệ này rất phức tạp và người ta có thể dễ dàng suy đoán ở một loạt các yếu tố trung gian có thể làm nền tảng cho sự khác biệt quan sát được.

Rất nhiều nghiên cứu tìm đến các hiệp hội để đảm bảo sự hiểu biết sâu sắc hơn về những gì đang diễn ra. Tương quan không phải là vô ích, nó chỉ là một vài bước dưới quan hệ nhân quả và người ta cần lưu ý về cách báo cáo các phát hiện để ngăn chặn sự giải thích sai từ không ai.


9

Bạn đúng rằng mối tương quan là hữu ích. Lý do mà các mô hình nhân quả tốt hơn các mô hình liên kết là vì - như Pearl nói - chúng là lời tiên tri cho các can thiệp. Nói cách khác, họ cho phép bạn suy luận theo giả thuyết. Một mô hình nhân quả trả lời câu hỏi "nếu tôi làm X xảy ra, chuyện gì sẽ xảy ra với Y?"

Nhưng không phải lúc nào bạn cũng cần suy luận theo giả thuyết. Nếu mô hình của bạn sẽ chỉ được sử dụng để trả lời các câu hỏi như "nếu tôi quan sát X, tôi biết gì về Y?", Thì mô hình liên kết là tất cả những gì bạn cần.


3
Oracles For Can thiệp sẽ là một cái tên hay cho một ban nhạc.
Malvolio

@Malvolio: lol, đó là một cách ngắn gọn không thể tha thứ để mô tả các mô hình nhân quả. Tôi thực sự thích cụm từ đó.
Neil G

4

Bạn đúng rằng mối tương quan là hữu ích cho dự đoán. Nó cũng hữu ích để có được sự hiểu biết tốt hơn về hệ thống đang nghiên cứu.

Một trường hợp mà kiến ​​thức về cơ chế nhân quả là cần thiết là nếu phân phối mục tiêu đã bị thao túng (ví dụ: một số biến đã bị "buộc" phải lấy các giá trị nhất định). Một mô hình dựa trên mối tương quan sẽ chỉ hoạt động kém, trong khi một mô hình sử dụng thông tin nhân quả sẽ hoạt động tốt hơn nhiều.


2

Tương quan là một công cụ hữu ích nếu bạn có một mô hình cơ bản giải thích mối quan hệ nhân quả.

Ví dụ, nếu bạn biết rằng việc tác dụng một lực lên một vật thể ảnh hưởng đến chuyển động của nó, bạn có thể đo lường mối tương quan giữa lực và vận tốc và lực và gia tốc. Sự tương quan mạnh mẽ hơn (với gia tốc) sẽ được giải thích bằng chính nó.

Trong các nghiên cứu quan sát, mối tương quan có thể tiết lộ một số mô hình phổ biến nhất định (như đã nêu cho con bú và sức khỏe sau này) có thể là cơ sở để khám phá khoa học hơn thông qua thiết kế thí nghiệm thích hợp có thể xác nhận hoặc từ chối nguyên nhân (ví dụ có thể thay vì cho con bú là nguyên nhân hệ quả của một khuôn khổ văn hóa nhất định).

Vì vậy, mối tương quan có thể hữu ích, nhưng nó hiếm khi có thể được kết luận.


2

Như bạn đã nói, tương quan một mình có rất nhiều tiện ích, chủ yếu là dự đoán.

ABAB

Ví dụ, tất cả các nghiên cứu cho thấy rằng việc sử dụng cà phê nhiều ở người cao tuổi có liên quan đến hệ thống tim mạch khỏe mạnh hơn, theo tôi, chắc chắn được thúc đẩy bởi những người muốn biện minh cho thói quen uống cà phê nặng của họ. Tuy nhiên, nói rằng uống cà phê chỉ tương quan với trái tim khỏe mạnh hơn là nguyên nhân, không có gì để trả lời câu hỏi quan tâm thực sự của chúng ta: chúng ta sẽ khỏe mạnh hơn nếu chúng ta uống nhiều cà phê hơn hay nếu chúng ta cắt giảm? Có thể rất bực bội khi tìm thấy kết quả rất thú vị (Cà phê được liên kết với trái tim khỏe mạnh hơn!) Nhưng không thể sử dụng thông tin đó để đưa ra quyết định (vẫn không biết bạn có nên uống cà phê để khỏe mạnh hơn không) và vì vậy hầu như luôn luôn một sự cám dỗ để giải thích mối tương quan là quan hệ nhân quả.

Trừ khi có thể tất cả những gì bạn quan tâm là cờ bạc (tức là bạn muốn dự đoán nhưng không ảnh hưởng).


2

Có giá trị tương quan, nhưng người ta nên xem xét thêm bằng chứng để kết luận nguyên nhân.

Nhiều năm trước, đã có một nghiên cứu dẫn đến "cà phê gây ung thư". Ngay khi nghe tin này, tôi đã nói với vợ "tương quan sai". Hóa ra tôi đã đúng. Dân số cà phê 2-3 ly mỗi ngày có tỷ lệ hút thuốc cao hơn những người không uống cà phê. Khi những người thu thập dữ liệu tìm ra điều này, họ rút lại kết quả của họ.

Một nghiên cứu thú vị khác trước sự bùng nổ và phá sản nhà ở cho thấy sự phân biệt chủng tộc khi xử lý các khoản thế chấp. Yêu cầu là những người nộp đơn màu đen đã bị từ chối với tỷ lệ cao hơn người da trắng. Nhưng một nghiên cứu khác đã xem xét tỷ lệ mặc định. Chủ nhà da đen được mặc định ở mức tội lỗi là người da trắng. Nếu ứng dụng màu đen được giữ ở tiêu chuẩn cao hơn, tỷ lệ mặc định của chúng sẽ thực sự thấp hơn nhiều. Lưu ý: giai thoại này đã được tác giả Thomas Sowell chia sẻ trong cuốn sách The Housing Boom and Bust

Khai thác dữ liệu có thể dễ dàng tạo ra hai bộ dữ liệu cho thấy mối tương quan cao, nhưng đối với các sự kiện không thể liên quan. Cuối cùng, tốt nhất là xem xét các nghiên cứu được gửi theo cách của bạn với một con mắt rất quan trọng. Tìm kiếm mối tương quan sai không phải lúc nào cũng dễ dàng, đó là một tài năng có được.


Tôi rất thích đọc câu trả lời này. Tuy nhiên, dường như để giải quyết nghịch đảo của câu hỏi: "Có phải vô ích khi biết rằng hai biến có tương quan với nhau không? ... Trong những tình huống nào một nhà thống kê hoặc nhà khoa học dữ liệu có thể sử dụng tương quan mà không có nguyên nhân?"
whuber

1
"Chủ nhà da đen được mặc định ở mức tội lỗi là người da trắng. Nếu ứng dụng màu đen được giữ ở tiêu chuẩn cao hơn, tỷ lệ mặc định của họ sẽ thực sự thấp hơn nhiều." đang nhảy đến kết luận. Đó chính xác là vấn đề này; Người nộp đơn màu đen về mặt thống kê sẽ khác với người nộp đơn màu trắng và nếu có nhiều người da đen trong một nhóm có nhiều khả năng chấp nhận thế chấp mặc định, thì người nộp đơn màu đen có cùng tỷ lệ mặc định sẽ biểu thị sự phân biệt đối xử. Tách ra các hiệu ứng gây nhiễu là khó.
prosfilaes

Như tôi đã nói, giai thoại đến từ một học giả da đen nổi tiếng. Và phải mất nhiều hơn một đoạn để thảo luận trong cuốn sách tôi đã tham khảo.
JTP - Xin lỗi Monica

1

Tương quan là một hiện tượng quan sát được. Bạn có thể đo nó. Bạn có thể hành động theo những phép đo đó. Tự nó, nó có thể hữu ích.

Tuy nhiên, nếu tất cả các bạn có một sự tương quan, bạn không có bất kỳ sự đảm bảo rằng một sự thay đổi bạn thực hiện sẽ thực sự có ảnh hưởng (xem đồ thị nổi tiếng buộc sự trỗi dậy của iPhone để chế độ nô lệ ở nước ngoài và như vậy). Nó chỉ cho thấy rằng có một mối tương quan ở đó, và nếu bạn điều chỉnh môi trường (bằng hành động), mối tương quan đó vẫn có thể ở đó.

Tuy nhiên, đây là một cách tiếp cận rất tinh tế. Trong nhiều kịch bản, chúng tôi muốn có một công cụ kém tinh tế hơn: quan hệ nhân quả. Nhân quả là một mối tương quan kết hợp với một tuyên bố rằng nếu bạn điều chỉnh môi trường của mình bằng cách hành động theo cách này hay cách khác, người ta sẽ mong đợi mối tương quan vẫn còn đó. Điều này cho phép lập kế hoạch dài hạn hơn, chẳng hạn như xâu chuỗi 20 hoặc 50 sự kiện nhân quả liên tiếp để xác định một kết quả hữu ích. Làm như vậy với 20 hoặc 50 tương quan thường để lại một kết quả rất mờ và mờ.

Như một ví dụ về cách chúng hữu ích trong quá khứ, hãy xem xét khoa học phương tây so với Y học cổ truyền Trung Quốc (TCM). Khoa học phương Tây tập trung chủ yếu vào "Phát triển một lý thuyết, cô lập một bài kiểm tra có thể chứng minh lý thuyết, chạy thử nghiệm và ghi lại các kết quả." Điều này bắt đầu với "phát triển một lý thuyết", rất gắn liền với quan hệ nhân quả. TCM quay nó xung quanh, bắt đầu bằng "nghĩ ra một bài kiểm tra có thể cung cấp kết quả hữu ích, chạy thử nghiệm, xác định mối tương quan trong câu trả lời." Trọng tâm là nhiều hơn về tương quan.

Ngày nay, người phương tây có xu hướng thích suy nghĩ gần như hoàn toàn về mặt nhân quả, vì vậy giá trị của nghiên cứu tương quan là khó khăn hơn để theo dõi. Tuy nhiên, chúng tôi tìm thấy nó ẩn nấp trong mọi góc cạnh của cuộc sống. Và đừng bao giờ quên rằng ngay cả trong khoa học phương tây, các mối tương quan là một công cụ quan trọng để xác định lý thuyết nào đáng để khám phá!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.