Làm thế nào để bạn tìm thấy mối quan hệ nhân quả trong dữ liệu?


11

Hãy nói rằng tôi có một bảng với các cột "A", "B"

Có phương pháp thống kê nào để xác định xem "A" có khiến "B" xảy ra không? Người ta không thể thực sự sử dụng Pearson's r, bởi vì:

  • nó chỉ kiểm tra mối tương quan giữa các giá trị
  • tương quan không phải là quan hệ nhân quả
  • Pearson's r chỉ có thể tương quan mối quan hệ tuyến tính

Vì vậy, những lựa chọn khác tôi có ở đây?


1
Không có. Từ dữ liệu đó bạn có thể chứng minh mức độ tương quan cao; bạn không thể chứng minh nhân quả.


1
Nhân quả không phải là thứ bạn có thể ép từ các con số ... vì vậy, hãy lặp lại theo tôi: nhân quả không phải là tương quan , nhân quả không phải là tương quan ...
JM không phải là một thống kê

1
Xem "Nhân quả" của Judea Pearl (người chiến thắng giải thưởng Turing 2011).

Câu trả lời:


4

Các câu trả lời và nhận xét cho đến nay về cơ bản là chính xác ở cấp độ thực tế, nhưng để hoàn thiện, có nghiên cứu về cái gọi là mô hình nhân quả dựa trên thống kê và lý thuyết đồ thị của Bayes. Vì vậy, mặc dù trong mối tương quan chung thực sự không ngụ ý nhân quả, có những mô hình phức tạp hơn cố gắng trêu chọc nhân quả. Xem cuốn sách Nhân quả của Judea Pearl để biết thêm chi tiết, nhưng đây là toán học rất nặng và có lẽ không phải là điều bạn muốn.


2

Có nhiều phương pháp được gọi là thử nghiệm gần đúng mà bạn có thể tranh luận một cách đáng tin cậy về quan hệ nhân quả, mặc dù dữ liệu của bạn là quan sát. Các phương pháp này thường dựa vào việc tìm kiếm một nguồn biến thể ngoại sinh trong biến quan tâm của bạn.

Tôi nghĩ rằng một cái nhìn tổng quan tốt và có thể truy cập được đưa ra trong cuốn sách "Chủ yếu là Kinh tế lượng vô hại". Về cơ bản, chúng bao gồm tất cả các phương pháp bán thí nghiệm mà mọi người (có nghĩa là: các nhà kinh tế) tin tưởng (ít nhất là đôi khi). Chúng không bao gồm các phương thức được đề cập bởi ví dụ trb456 (vì cùng một lý do: không nhiều người tin vào chúng).


1

Để xác định quan hệ nhân quả, bạn cần thực hiện một thử nghiệm ngẫu nhiên. Bạn lấy các đối tượng thử nghiệm của mình và chọn ngẫu nhiên một nửa trong số họ có chất lượng A và một nửa để không có nó. Sau đó, bạn sẽ thấy nếu có sự khác biệt có ý nghĩa thống kê về chất lượng B giữa hai nhóm.

MộtB

Lưu ý rằng có thể không thể thực hiện kiểm tra ngẫu nhiên mà bạn muốn làm. Ví dụ, làm thế nào bạn có thể kiểm tra nếu cao khiến bạn nặng hơn? Chắc chắn có mối tương quan giữa chiều cao và cân nặng, nhưng bạn không thể chỉ định ngẫu nhiên một nhóm người cho một nhóm 'cao' và một nhóm cho một nhóm 'ngắn'. Trong trường hợp này, thử nghiệm ngẫu nhiên không thể được thực hiện.


0

Bolog 'd hoạt động để giải thích mối quan hệ giữa các biến số thứ tự theo cách mà hệ số tương quan của pearson làm cho các tập dữ liệu.


1
Tôi đồng ý rằng phải mất nhiều hơn số để thiết lập quan hệ nhân quả. Làm thế nào để sử dụng các biến số thứ tự nhập vào câu hỏi?
Michael R. Chernick

1
@MichaelCottaick Bolog 'D là thước đo liên kết không đối xứng. Nó có thể phân biệt giữa "nếu trời mưa, thì trời nhiều mây," từ "nếu trời nhiều mây, thì trời đang mưa." Nó hoạt động đối với dữ liệu thông thường hoặc cao hơn. Nó không thiết lập quan hệ nhân quả, nhưng nó thiết lập tính định hướng.
Dave Harris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.