Tôi nên lưu ý điều gì khi sử dụng nhiều hồi quy để tìm các mối quan hệ nhân quả trực tuyến trong dữ liệu của tôi?


8

Trước hết, tôi nhận ra hồi quy bội không thực sự đưa ra những suy luận thực sự "nhân quả" về dữ liệu. Hãy để tôi giải thích trường hợp hiện tại của tôi:

Tôi có bốn biến độc lập mà tôi hy vọng (nhưng không chắc chắn) có liên quan đến việc điều khiển thứ tôi đang đo. Tôi muốn sử dụng nhiều hồi quy để xem mỗi biến này đóng góp bao nhiêu cho biến phụ thuộc của tôi và đã làm như vậy. Giả sử, biến "Số bốn" đang ảnh hưởng rất lớn đến kết quả đo lường của tôi (trọng lượng beta gần 0,7).

Tuy nhiên, tôi đã nói điều này là không đủ, bởi vì một số biến "độc lập" của tôi trên thực tế có thể tương quan với nhau. Trong trường hợp đó, tôi có thể nghĩ "Biến bốn" đang điều khiển biến phụ thuộc của mình, khi thực sự cả ba và bốn đều có thể đóng góp như nhau. Điều này có vẻ đúng, nhưng vì tôi chưa quen với điều này nên tôi không chắc chắn.

Làm thế nào tôi có thể tránh được vấn đề này trong tương lai? Những quy trình cụ thể nào bạn sẽ đề xuất khi sử dụng nhiều hồi quy để đảm bảo rằng dữ liệu "độc lập" của bạn không chứa các mối tương quan ẩn?

Chỉnh sửa: Bản thân dữ liệu là một chuỗi các mô hình mạng (đồ thị) của một trạng thái thần kinh cụ thể. Tôi đang đo "hệ số phân cụm" mô tả cấu trúc liên kết của mỗi mạng như một tổng thể (biến phụ thuộc ở đây), và sau đó xem liệu các kết nối riêng lẻ của bốn nút trong mạng 100+ lớn hơn đang điều khiển các giá trị phân cụm toàn cầu (bốn độc lập biến). Tuy nhiên, các nút này là một phần của mạng, do đó, theo định nghĩa, có thể chúng tương quan đến một mức độ nào đó.


3
Điều làm cho một mối quan hệ nhân quả là một vấn đề gây tranh cãi trong triết học của khoa học. "Tiêu chuẩn vàng" là thực hiện một thí nghiệm trong đó biến điều trị được chỉ định ngẫu nhiên, do đó đảm bảo các hiệp phương sai có khả năng gây nhiễu khác không liên quan một cách có hệ thống với điều trị. Tuy nhiên, trong nhiều lĩnh vực và đối với nhiều câu hỏi, thí nghiệm là không thể. Một số chuyển sang cái gọi là thí nghiệm tự nhiên cho sự ngoại sinh. Bạn có thể quan tâm đến bài viết kinh điển của Paul Holland, "Thống kê và suy luận nguyên nhân". Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 81, 945-970.
Jason Morgan

1
Bạn đang hỏi những câu hỏi rất quan trọng, nhưng mọi người nghi ngờ có thể cung cấp cho bạn một loạt các bước cần thực hiện hoặc một công thức tuyệt vời, cô đọng; Nắm vững vấn đề này là một đề xuất dài hạn. Đề xuất bổ sung về các điều khoản và chủ đề để nghiên cứu: các biến số triệt tiêu; ước tính lạm phát và phương sai lạm phát; tương quan không thứ tự, một phần và bán đảo (một phần); phương pháp lựa chọn biến; giá trị chéo.
rolando2

Nếu bạn muốn cho chúng tôi biết mục đích của mô hình này, bạn có thể nhận được nhiều đề xuất hữu ích hơn nữa. Đa hồi quy xử lý khá tốt với các biến độc lập tương quan, miễn là chúng không tương quan quá cao, dẫn đến đa bạch cầu. Như những người khác đã nói, việc đánh giá quan hệ nhân quả là khó khăn (nhưng không phải là không thể) bên ngoài một thí nghiệm ngẫu nhiên. Xem một số các liên kết sau: Delicious.com/MichaelBishop/causality để biết thêm về chủ đề đó.
Michael Giám mục

Bản thân dữ liệu là một chuỗi các mô hình mạng (đồ thị) của một trạng thái thần kinh cụ thể. Tôi đang đo "hệ số phân cụm" mô tả cấu trúc liên kết của mỗi mạng như một tổng thể (biến phụ thuộc ở đây) và sau đó xem liệu các kết nối riêng lẻ của bốn nút trong mạng 100+ lớn hơn có đang điều khiển các giá trị phân cụm toàn cầu (bốn độc lập biến). Tuy nhiên, các nút này là một phần của mạng, do đó, theo định nghĩa, có thể chúng tương quan đến một mức độ nào đó.
lần thứ

Câu trả lời:


5

Bạn không thể "tránh một cách có hệ thống vấn đề này trong tương lai", vì nó không nên được gọi là "vấn đề". Nếu thực tế của thế giới vật chất có các đồng biến mạnh, thì chúng ta nên chấp nhận nó như là thực tế và điều chỉnh các lý thuyết và mô hình của chúng ta theo hệ quả. Tôi rất thích câu hỏi này và hy vọng rằng những gì tiếp theo sẽ không quá thất vọng.

Dưới đây là một số điều chỉnh có thể làm việc cho bạn. Bạn sẽ cần xem lại cẩm nang hồi quy trước khi tiếp tục.

  • Chẩn đoán vấn đề, sử dụng các kỹ thuật tương quan hoặc sau ước lượng như Yếu tố lạm phát phương sai (VIF). Sử dụng các công cụ được đề cập bởi Peter Flom nếu bạn đang sử dụng SAS hoặc R. Trong Stata, sử dụng pwcorrđể xây dựng ma trận tương quan, gr matrixđể xây dựng ma trận phân tán và vifphát hiện các mức dung sai có vấn đề là 1 / VIF <0.1.

  • Đo hiệu ứng tương tác bằng cách thêm, ví dụ, var3*var4vào mô hình. Hệ số này sẽ giúp bạn nhận ra mức độ chơi giữa var3var4. Điều này sẽ chỉ đưa bạn đến mức đo một phần tương tác, nhưng nó sẽ không cứu được mô hình của bạn khỏi những hạn chế của nó.

  • Quan trọng nhất, nếu bạn phát hiện tính đa hình mạnh hoặc các vấn đề khác như tính không đồng nhất, bạn nên bỏ mô hình của mình và bắt đầu lại. Mô hình sai chính tả là bệnh dịch của phân tích hồi quy (và các phương pháp thường xuyên nói chung). Paul Schrodt có một số bài viết xuất sắc về vấn đề này, bao gồm cả " Bảy tội lỗi chết người " gần đây mà tôi rất thích.

Điều này trả lời quan điểm của bạn về tính đa hướng, và rất nhiều điều này có thể được học từ cẩm nang hồi quy tại UCLA Stat Computing. Nó không trả lời câu hỏi của bạn về quan hệ nhân quả. Nói ngắn gọn, hồi quy không bao giờ là nhân quả. Không có bất kỳ mô hình thống kê nào: thông tin nhân quả và thống kê là các loài riêng biệt. Đọc có chọn lọc từ Judea Pearl ( ví dụ ) để tìm hiểu thêm về vấn đề này.

Nói chung, câu trả lời này không loại bỏ giá trị của phân tích hồi quy, hoặc thậm chí của thống kê thường xuyên (tôi tình cờ dạy cả hai). Tuy nhiên, nó làm giảm phạm vi phù hợp của họ và cũng nhấn mạnh vai trò quan trọng của lý thuyết giải thích ban đầu của bạn, điều này thực sự quyết định khả năng mô hình của bạn sở hữu các thuộc tính nguyên nhân.


+1 cho các liên kết đến cẩm nang, đề cập đến cộng tác và IVF, và các giải pháp cụ thể và thậm chí triển khai trong R. Tôi tò mò muốn biết ý kiến ​​của bạn về việc liệu dữ liệu đó có phù hợp với phân tích hồi quy không - Tôi đã chỉnh sửa câu hỏi trên để phản ánh Đó là những phép đo của một mạng.
lần thứ

Xin lỗi vì đã trả lời trễ, nhưng tôi không may là quá ít về chủ đề này để trả lời rằng bạn đang sử dụng đúng kỹ thuật. Tôi đoán là SNA chứa các công cụ khác sẽ giúp ích (ví dụ: mô hình các biện pháp trung tâm khác nhau khi bạn triệt tiêu bất kỳ sự kết hợp nào trong bốn nút của bạn).
Cha

5

Nếu bạn muốn xem các biến độc lập có tương quan hay không, điều đó thật dễ dàng - chỉ cần kiểm tra các mối tương quan, ví dụ với PROC CORR trong SAS, hoặc cor in R, hoặc bất cứ thứ gì trong bất kỳ gói nào bạn sử dụng.

Tuy nhiên, bạn có thể muốn kiểm tra cộng tuyến thay thế hoặc ngoài ra.

Nhưng đó chỉ là một phần của vấn đề nhân quả. Vấn đề hơn là một số biến KHÔNG có trong dữ liệu của bạn có liên quan. Ví dụ cổ điển:

Những sinh viên thuê gia sư bị điểm kém hơn những sinh viên không thuê gia sư.

Lượng thiệt hại do hỏa hoạn gây ra có liên quan rất lớn đến số lượng lính cứu hỏa xuất hiện.

và (yêu thích của tôi)

Nếu bạn hồi quy IQ về dấu hiệu chiêm tinh và tuổi ở trẻ 5 - 12 tuổi, có một sự tương tác đáng kể và ảnh hưởng đáng kể của dấu hiệu lên IQ, nhưng chỉ ở trẻ nhỏ.


Lý do: 1. Có. Bởi vì những sinh viên đạt điểm cao thực sự có xu hướng không thuê gia sư ngay từ đầu

  1. Phải, bởi vì những đám cháy lớn hơn gây ra nhiều thiệt hại hơn và mang lại nhiều lính cứu hỏa hơn

  2. Số lượng trường học (tính theo tháng) của một đứa trẻ đã phụ thuộc vào tháng sinh. Hệ thống trường học có tuổi cắt. Vì vậy, một đứa trẻ 6 tuổi có thể đã học nhiều hơn 11 tháng so với đứa trẻ 6 tuổi khác.

Và tất cả điều đó là không có được vào triết học!


2

Mối quan hệ giữa quan hệ nhân quả và liên kết về cơ bản là trả lời câu hỏi sau:

XY

Miễn là câu trả lời cho câu hỏi này không phải là "không có gì" thì bạn chỉ có thể nói một cách dứt khoát về sự liên kết. Luôn luôn có thể có một mối quan hệ "nhân quả" được đề xuất thực sự là một trường hợp đặc biệt của mối quan hệ nhân quả "chính xác" - đây là điều đã xảy ra giữa thuyết hấp dẫn của Newton và Einstein. Mối quan hệ nhân quả của Newton là một trường hợp đặc biệt của lý thuyết Einstein. Và lý thuyết của ông có thể sẽ là một trường hợp đặc biệt của một số lý thuyết khác.

Ngoài ra, bất kỳ lỗi nào trong dữ liệu của bạn sẽ loại bỏ mọi khả năng có mối quan hệ nhân quả xác định. Điều này là do cụm từ "A gây ra B" có phần liên kết suy diễn giữa A và B. Tất cả những gì bạn phải làm để bác bỏ giả thuyết này là tìm 1 trường hợp B không có mặt nhưng A có mặt (vì A là đúng , nhưng điều này có nghĩa là B cũng đúng - nhưng chúng tôi quan sát B sai).

YYYY. Và bất cứ khi nào bạn đề xuất một mối quan hệ nhân quả, bạn gần như chắc chắn sẽ phải "chứng minh" bằng cách tái tạo kết quả của mình với dữ liệu mới - bạn sẽ cần có thể dự đoán dữ liệu nào sẽ được nhìn thấy và chính xác về nó.

Bạn cũng cần một số loại lý thuyết vật lý về "cơ chế nhân quả" (khi tôi nhấn nút đó, đèn sẽ sáng, khi tôi nhấn nút này, đèn sẽ đổi màu, v.v.). Nếu tất cả những gì bạn có là "hệ số hồi quy là 0,7" thì điều này rất ít để thiết lập một cơ chế nhân quả đang hoạt động.


1

Tôi không chắc chắn công việc của bạn thuộc lĩnh vực nào, vì vậy điều này có thể hoặc không thể giúp được gì - nhưng tôi quen thuộc nhất với việc sử dụng SPSS với các cấu trúc tâm lý. Theo kinh nghiệm của tôi, nếu tôi có một vài biến dự đoán biến kết quả (hoặc biến phụ thuộc) trong hồi quy và tôi có một hoặc nhiều biến độc lập hiển thị dưới dạng các yếu tố dự báo quan trọng, bước tiếp theo là xem biến nào quan trọng hơn khác. Một cách để tiếp cận điều này là với hồi quy phân cấp. Điều này về cơ bản trả lời câu hỏi "Nếu tôi đã có 'biến bốn' để dự đoán biến kết quả của mình, liệu có bất kỳ biến nào khác cung cấp sự gia tăng đáng kể về mặt thống kê trong khả năng dự đoán không?" SPSS có một cách khá rõ ràng để phân tích điều này, vì tôi chắc chắn R và SAS cũng vậy. Vì thế, Tôi nghĩ rằng hồi quy phân cấp có thể là bước tiếp theo của bạn trong việc tìm hiểu xem "biến bốn" có thực sự là lựa chọn tốt nhất của bạn trong việc dự đoán yếu tố kết quả của bạn hay không. Những người khác đã trả lời đã cung cấp một cuộc thảo luận tốt về các vấn đề trong quan hệ nhân quả, vì vậy tôi sẽ để nó một mình ... Chúc may mắn!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.