Những ưu điểm của các phương pháp khác nhau để phát hiện sự cộng tác là gì?


11

Tôi muốn phát hiện xem liệu cộng tuyến có phải là vấn đề trong hồi quy OLS của tôi không. Tôi hiểu rằng các yếu tố lạm phát phương sai và chỉ số điều kiện là hai biện pháp được sử dụng phổ biến, nhưng tôi cảm thấy khó tìm thấy bất cứ điều gì xác định dựa trên giá trị của từng phương pháp, hoặc điểm số nên là gì.

Một nguồn nổi bật chỉ ra cách tiếp cận để làm và / hoặc điểm nào phù hợp sẽ rất hữu ích.

Một câu hỏi tương tự đã được đặt ra tại "Có lý do nào để thích một biện pháp đa hình cụ thể không?" nhưng tôi lý tưởng sau một tài liệu tham khảo mà tôi có thể trích dẫn.


4
Hãy nhớ rằng cộng tác rất quan trọng về mức độ , vì vậy ngay cả khi bạn tìm thấy một văn bản có số đẹp, có thể đọc được, đó không phải là điều bạn nên coi là giá trị khó khăn cho "không vấn đề" so với "chúng tôi có vấn đề ".
Cá bạc

4
@Silverfish cho lời khuyên tốt. Belsley, Kuh và Welsch cũng nhấn mạnh rằng sự cộng tác, ngay cả khi có mặt, không nhất thiết có hại: bạn phải xác định liệu nó có thực sự gây ra vấn đề cho phân tích của bạn hay không.
whuber

Câu trả lời:


11

Belsley, Kuh, và Welsch là các văn bản để đi đến cho các loại hình câu hỏi. Chúng bao gồm thảo luận rộng rãi về chẩn đoán cũ trong một phần có tên "Quan điểm lịch sử". Liên quan đến VIF họ viết

... Nếu chúng ta giả định dữ liệu đã được tập trung và quy mô để có đơn vị chiều dài, mối tương quan ma trận chỉ đơn giản là . ...R X XXRXX

Chúng tôi đang xem xét . Các phần tử đường chéo của , , thường được gọi là các yếu tố lạm phát phương sai, và giá trị chẩn đoán của chúng xuất phát từ mối quan hệ trong đó là hệ số tương quan bội của hồi quy trên các biến giải thích còn lại. Rõ ràng VIF cao biểu thị gần thống nhất và do đó chỉ ra cộng tuyến. Do đó, biện pháp này được sử dụng như một dấu hiệu chung của cộng tuyến. Điểm yếu của nó, giống như điểm yếu củaR1=(XX)1R1 VIF i VIF i = 1riiVIFi R 2 i XiR 2 i R

VIFi=11Ri2
Ri2XiRi2R, nằm ở chỗ không có khả năng phân biệt giữa một số phụ thuộc cùng tồn tại và thiếu ranh giới có ý nghĩa để phân biệt giữa các giá trị của VIF có thể được coi là cao và các giá trị có thể được coi là thấp.

Thay vì phân tích (hoặc ), BKW đề xuất cẩn thận, kiểm tra kiểm soát của Số ít giá trị gia tăng phân hủy của . Họ thúc đẩy nó bằng cách chứng minh rằng tỷ lệ của các giá trị số nhỏ nhất và nhỏ nhất là số điều kiện của và chỉ ra cách số điều kiện cung cấp (đôi khi chặt chẽ) về sự lan truyền của các lỗi tính toán trong tính toán các ước tính hồi quy. Họ tiếp tục cố gắng phân tách gần đúng các phương sai của ước tính tham số thành các thành phần được liên kết với các giá trị số ít. Sức mạnh của sự phân hủy này nằm ở khả năng của nó (trong nhiều trường hợp) để bộc lộ bản chấtR - 1 X X β iRR1XXβ^i của cộng tuyến, thay vì chỉ cho thấy sự hiện diện của nó.

Bất cứ ai đã xây dựng mô hình hồi quy với hàng trăm biến sẽ đánh giá cao tính năng này! Đó là một điều để phần mềm nói "dữ liệu của bạn là cộng tuyến, tôi không thể tiến hành" hoặc thậm chí để nói "dữ liệu của bạn là thông đồng, tôi đang đưa ra các biến sau." Nó hoàn toàn là một điều hữu ích hơn nhiều để có thể nói "nhóm biến đang gây ra sự không ổn định trong tính toán: xem biến nào bạn có thể làm mà không cần hoặc xem xét thực hiện phân tích thành phần chính để giảm số lượng của chúng. "Xi1,,Xik

Cuối cùng, BKW khuyên bạn nên chẩn đoán cộng tuyến bằng phương tiện

... điều kiện kép sau đây:

  1. Một giá trị số ít được đánh giá là có chỉ số điều kiện cao và được liên kết với
  2. Tỷ lệ phân rã phương sai cao cho hai hoặc nhiều phương sai hệ số hồi quy ước tính.

Số lượng các chỉ số điều kiện được coi là lớn (giả sử, lớn hơn ) trong (1) xác định số lượng phụ thuộc gần giữa các cột của ma trận dữ liệu và cường độ của các chỉ số điều kiện cao này cung cấp thước đo độ kín của chúng. " Hơn nữa, việc xác định (2) tỷ lệ phân rã phương sai lớn (giả sử lớn hơn ) liên quan đến từng chỉ số điều kiện cao xác định các biến thiên có liên quan đến sự phụ thuộc gần tương ứng và cường độ của các tỷ lệ này kết hợp với mức cao chỉ số điều kiện cung cấp thước đo mức độ ước tính hồi quy tương ứng đã bị suy giảm do sự hiện diện của cộng tuyến.X 0,530X0.5


10
  • Các yếu tố lạm phát phương sai (VIF) là dễ hiểu. Lấy lại từng cột ma trận thiết kế của bạn trên tất cả các cột khác, lưu ý của mô hình này, tính , và bạn sẽ đến đó. VIF bằng 10 có nghĩa là bạn có thể giải thích 90% phương sai của một người dự đoán bằng cách sử dụng tất cả các biến hồi quy khác. Điều này thường được sử dụng như là một quy tắc ngưỡng ngón tay cái cho cộng tuyến.R21/(1R2)

    Tuy nhiên, các VIF như được triển khai thông thường không thể cho bạn biết về cộng tác với việc chặn, vì việc chặn thường được bao gồm trong các hồi quy "trợ giúp" này. Ngoài ra, nếu một regressor có VIF cao, bạn không biết ngay hồi quy khác có trách nhiệm cộng tuyến. Bạn cần xem xét các hệ số được tiêu chuẩn hóa trong các hồi quy của trình trợ giúp.

  • Các chỉ số điều kiện và quy mô cộng tuyến phân hủy của Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics:. Xác định ảnh hưởng dữ liệu và Nguồn cộng tuyến John Wiley & Sons, 1980) là xa khó hiểu. Tôi đã từng làm việc với những điều này một vài năm trước đây, nhưng tôi sẽ không cố gắng giải thích chúng ở đây mà không được làm mới ;-)

    Những chẩn đoán này cho phép phát hiện cộng tuyến với đánh chặn. Và bạn có thể điều tra tỷ lệ phân rã cộng tuyến để suy ra các biến hồi quy khác chịu trách nhiệm cho một cộng tuyến của hồi quy đã cho.


Cảm ơn - rất hữu ích - bạn có tình cờ nhận được một trích dẫn cho VIF lớn hơn 10 quy tắc ngón tay cái ... Tôi có thể tìm thấy rất nhiều ghi chú bài giảng kinh tế, nhưng không thể tìm thấy bất cứ điều gì được công bố nói rằng .. .
kyrenia

@kyrenia "lớn hơn 10" nằm xa ngưỡng duy nhất tôi thấy được đề xuất! Tôi tự hỏi liệu có sự khác biệt giữa các lĩnh vực, hoặc đơn giản là giữa các tác giả.
Cá bạc

3
@Silverfish Chắc chắn có sự khác biệt giữa các trường. Tôi đã được thông báo về những người thiết kế thử nghiệm dạy rằng VIF trên cần phải được sửa! Đối với các nghiên cứu quan sát, cũng cần có sự thay đổi tùy thuộc vào số lượng hồi quy: càng có nhiều, VIF sẽ càng lớn chỉ do biến động cơ hội. Với hàng trăm biến trong nhiều trường hợp, bạn sẽ chỉ phải đưa ra các VIF từ trở lên. Có lẽ cũng có đủ dữ liệu trong các trường hợp như vậy để bù cho lạm phát phương sai như vậy. 1002100
whuber

@whuber Cảm ơn vì điều đó. Đó là một quan sát rất thú vị và rất phù hợp với câu hỏi do OP đặt ra: với tầm quan trọng của "bình luận thứ hai" trong hệ thống StackExchange, tôi nghĩ bạn nên xem xét kết hợp câu hỏi đó vào câu trả lời xuất sắc của mình.
Cá bạc

6

Đối với các tài liệu tham khảo có sẵn rộng rãi để trích dẫn, cuốn sách Faraway ở trang 117 cung cấp quy tắc ngón tay cái trên 30 để phát hiện các vấn đề dựa trên số điều kiện và Giới thiệu về Học thống kê , trang 101, nói rằng các giá trị VIF trên 5 hoặc 10 chỉ ra một vấn đề .

Có lẽ quan trọng hơn phương pháp bạn sử dụng để xác định tính đa hình sẽ là cách bạn đối phó với nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.