Trước hết, tôi nhận ra hồi quy bội không thực sự đưa ra những suy luận thực sự "nhân quả" về dữ liệu. Hãy để tôi giải thích trường hợp hiện tại của tôi:
Tôi có bốn biến độc lập mà tôi hy vọng (nhưng không chắc chắn) có liên quan đến việc điều khiển thứ tôi đang đo. Tôi muốn sử dụng nhiều hồi quy để xem mỗi biến này đóng góp bao nhiêu cho biến phụ thuộc của tôi và đã làm như vậy. Giả sử, biến "Số bốn" đang ảnh hưởng rất lớn đến kết quả đo lường của tôi (trọng lượng beta gần 0,7).
Tuy nhiên, tôi đã nói điều này là không đủ, bởi vì một số biến "độc lập" của tôi trên thực tế có thể tương quan với nhau. Trong trường hợp đó, tôi có thể nghĩ "Biến bốn" đang điều khiển biến phụ thuộc của mình, khi thực sự cả ba và bốn đều có thể đóng góp như nhau. Điều này có vẻ đúng, nhưng vì tôi chưa quen với điều này nên tôi không chắc chắn.
Làm thế nào tôi có thể tránh được vấn đề này trong tương lai? Những quy trình cụ thể nào bạn sẽ đề xuất khi sử dụng nhiều hồi quy để đảm bảo rằng dữ liệu "độc lập" của bạn không chứa các mối tương quan ẩn?
Chỉnh sửa: Bản thân dữ liệu là một chuỗi các mô hình mạng (đồ thị) của một trạng thái thần kinh cụ thể. Tôi đang đo "hệ số phân cụm" mô tả cấu trúc liên kết của mỗi mạng như một tổng thể (biến phụ thuộc ở đây), và sau đó xem liệu các kết nối riêng lẻ của bốn nút trong mạng 100+ lớn hơn đang điều khiển các giá trị phân cụm toàn cầu (bốn độc lập biến). Tuy nhiên, các nút này là một phần của mạng, do đó, theo định nghĩa, có thể chúng tương quan đến một mức độ nào đó.