Làm thế nào để đối phó với mối tương quan cao giữa các yếu tố dự đoán trong hồi quy bội?


18

Tôi tìm thấy một tài liệu tham khảo trong một bài viết như sau:

Theo Tabachnick & Fidell (1996), các biến độc lập có tương quan bivariate hơn 0,70 không nên được đưa vào phân tích hồi quy bội.

Vấn đề: Tôi đã sử dụng trong thiết kế hồi quy bội 3 biến tương quan> .80, VIF ở khoảng .2 - .3, Dung sai ~ 4- 5. Tôi không thể loại trừ bất kỳ biến nào trong số chúng (dự đoán và kết quả quan trọng). Khi tôi hồi quy kết quả trên 2 yếu tố dự đoán tương quan ở mức 0,80, chúng vẫn có ý nghĩa, cả hai biến số dự đoán quan trọng và hai biến này có hệ số tương quan bán phần và bán phần lớn nhất trong số 10 biến số bao gồm (5 điều khiển).

Câu hỏi: Mô hình của tôi có hợp lệ mặc dù có tương quan cao? Bất kỳ tài liệu tham khảo rất hoan nghênh!


Cảm ơn vì câu trả lời của bạn!

Tôi đã không sử dụng Tabachnick và Fidell làm hướng dẫn, tôi đã tìm thấy tài liệu tham khảo này trong một bài viết liên quan đến tính cộng tác cao giữa các dự đoán.

Vì vậy, về cơ bản, tôi có quá ít trường hợp cho số lượng dự đoán trong mô hình (nhiều biến kiểm soát mã hóa phân loại, giả, tuổi, nhiệm kỳ, giới tính, v.v.) - 13 biến cho 72 trường hợp. Chỉ số điều kiện là ~ 29 với tất cả các điều khiển trong và ~ 23 không có chúng (5 biến).

Tôi không thể bỏ bất kỳ biến số nào hoặc sử dụng phân tích giai thừa để kết hợp chúng bởi vì về mặt lý thuyết chúng có ý nghĩa riêng. Quá muộn để có thêm dữ liệu. Vì tôi đang tiến hành phân tích trong SPSS, có lẽ tốt nhất là tìm một cú pháp cho hồi quy sườn (mặc dù tôi chưa làm điều này trước đây và diễn giải kết quả sẽ là mới đối với tôi).

Nếu có vấn đề, khi tôi tiến hành hồi quy từng bước, cùng 2 biến tương quan cao vẫn là các yếu tố dự báo quan trọng duy nhất về kết quả.

Và tôi vẫn không hiểu liệu các mối tương quan một phần cao đối với từng biến này có phải là lời giải thích cho lý do tại sao tôi giữ chúng trong mô hình hay không (trong trường hợp hồi quy sườn không thể được thực hiện).

Bạn có nói rằng "Chẩn đoán hồi quy: xác định dữ liệu có ảnh hưởng và các nguồn cộng tác / David A. Belsley, Edwin Kuh và Roy E. Welsch, 1980" sẽ hữu ích trong việc hiểu về đa cộng đồng? Hoặc các tài liệu tham khảo khác có thể hữu ích?


2
Để biết ví dụ rõ ràng về tình huống này, hãy xem phân tích của 10 IV tại stats.stackexchange.com/a/14528 . Ở đây, tất cả các IV đều có mối tương quan chặt chẽ (khoảng 60%). Nhưng nếu bạn loại trừ tất cả chúng, bạn sẽ không còn gì cả! Thường thì đó là trường hợp bạn không thể bỏ bất kỳ biến nào trong số này. Điều này làm cho khuyến nghị T & F không thể thực hiện được.
whuber

Thật vậy, có một số cách phát âm trong Tabachnick và Fidell mà tôi cho là ít nhất là hơi mơ hồ ... chỉ vì một cái gì đó được in trong một cuốn sách không có nghĩa là nó luôn có ý nghĩa.
Glen_b -Reinstate Monica

Câu trả lời:


20

Vấn đề chính không phải là sự tương quan mà là sự cộng tác (ví dụ, xem các tác phẩm của Belsley). Đây là thử nghiệm tốt nhất sử dụng chỉ số điều kiện (trong có sẵn R, SASvà các chương trình có thể khác. Tương quan không phải là một cần thiết cũng không phải là điều kiện đủ cho cộng tuyến. Chỉ số Điều kiện hơn 10 (mỗi Belsley) chỉ vừa phải cộng tuyến, hơn 30 nghiêm trọng, nhưng nó cũng phụ thuộc trên đó các biến có liên quan đến cộng tuyến.

Nếu bạn tìm thấy cộng tuyến cao, điều đó có nghĩa là ước tính tham số của bạn không ổn định. Đó là, những thay đổi nhỏ (đôi khi trong con số đáng kể thứ 4) trong dữ liệu của bạn có thể gây ra những thay đổi lớn trong ước tính tham số của bạn (đôi khi thậm chí đảo ngược dấu hiệu của chúng). Đây là một điều xấu.

Biện pháp khắc phục là 1) Lấy thêm dữ liệu 2) Bỏ một biến 3) Kết hợp các biến (ví dụ với bình phương nhỏ nhất một phần) và 4) Thực hiện hồi quy sườn, cho kết quả sai lệch nhưng làm giảm phương sai của ước tính.


Tabachnick và Fidell đã viết một cuốn sách đa biến hay cho khoa học xã hội. Họ không phải là nhà thống kê nhưng kiến ​​thức về đa biến của họ là tốt. Nhưng tôi nghĩ rằng họ có thể tạo ra các quy tắc để đơn giản hóa và có thể bỏ lỡ sự tinh tế thống kê. Vì vậy, tôi sẽ dựa nhiều hơn vào những gì Peter nói trong câu trả lời của mình hơn là trong bài báo.
Michael R. Chernick

Cảm ơn @MichaelCécick. Tôi thực sự đã viết luận án về chẩn đoán cộng tuyến cho hồi quy bội.
Peter Flom - Tái lập Monica

Tôi cho rằng bạn cũng già như tôi và do đó công việc của bạn đến sau công việc của Belsley, Kuh và Welsch và Cook. Tôi biết công việc của Cook chủ yếu là về các vấn đề chẩn đoán khác (đòn bẩy và tính phi quy tắc), nhưng anh ta có làm gì về tính đa hình không? Tất nhiên, khái niệm hồi quy sườn núi thậm chí còn quay trở lại trước thời của tôi
Michael R. Chernick

1
@Peter Flom: Tại sao tương quan không phải là điều kiện cần và không đủ cho cộng tuyến? Bạn đang đề cập đến tương quan phi tuyến tính?
Julian

5
Điều đó là không cần thiết bởi vì, nếu có một số lượng lớn các biến, tất cả các cặp chỉ có thể tương quan một chút nhưng tổng của chúng là hoàn toàn chính xác. Điều đó là không đủ bởi vì có những trường hợp tương quan khá cao không mang lại sự cộng tác rắc rối cho mỗi chỉ số điều kiện
Peter Flom - Rebstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.