VIF, Chỉ số điều kiện và giá trị bản địa


15

Tôi hiện đang đánh giá tính đa hình trong bộ dữ liệu của mình.

Giá trị ngưỡng nào của VIF và chỉ số điều kiện bên dưới / bên trên gợi ý vấn đề?

VIF: Tôi đã nghe nói rằng VIF là một vấn đề.10

Sau khi loại bỏ hai biến vấn đề, VIF là cho mỗi biến. Các biến cần điều trị nhiều hơn hay VIF này có vẻ ổn?3,96

Chỉ số điều kiện: Tôi đã nghe nói rằng Chỉ số điều kiện (CI) từ 30 trở lên là một vấn đề. CI cao nhất của tôi là 16,66. Đây co phải vân đê?

Các vấn đề khác:

  • Có bất kỳ dos / donts nào khác cần được xem xét?
  • Có điều gì khác mà tôi cần ghi nhớ không?

1
Hãy làm rõ câu hỏi. Cụ thể, đây là một số nhận xét từ trước: Bởi @chl - "bạn nên xem xét việc viết câu hỏi rõ ràng (chúng rất thú vị), với một vấn đề dứt khoát và bảo lưu ý kiến ​​cho các infos bổ sung có liên quan đến câu hỏi ban đầu của bạn, không theo dõi- lên". Bởi @shane - "Liên quan đến câu hỏi hiện tại này: nó cũng có thể được cải thiện bởi vì nó đã hỏi nhiều câu hỏi khác nhau mà không có chủ đề chung rõ ràng. Bạn có quan tâm đến vấn đề đa cộng đồng nói chung không? Hay bạn quan tâm đến VIF? cho rõ ràng."

Câu trả lời:


5

Đa sắcVấn đề được nghiên cứu kỹ trong hầu hết các sách giáo khoa kinh tế lượng. Hơn nữa, có một bài viết hay trong wikipedia thực sự tóm tắt hầu hết các vấn đề chính.

XTX

  1. thay đổi lớn trong ước tính tham số trong khi thực hiện hồi quy hoặc ước tính trên các mẫu con nhỏ hơn của dữ liệu
  2. tF thử nghiệm cho thấy tầm quan trọng chung của kết quả
  3. R2
  4. Chỉ số điều kiện là một thay thế cho VIF trong trường hợp của bạn, cả VIF và CI đều không hiển thị vấn đề còn lại, do đó bạn có thể hài lòng về mặt thống kê về kết quả này, nhưng ...

có lẽ không phải trên lý thuyết, vì nó có thể xảy ra (và thường là trường hợp) mà bạn cần tất cả các biến có mặt trong mô hình. Loại trừ các biến có liên quan (vấn đề biến bị bỏ qua) sẽ làm cho các ước tính tham số sai lệch và không nhất quán. Mặt khác, bạn có thể bị buộc phải bao gồm tất cả các biến trọng tâm chỉ vì phân tích của bạn dựa trên nó. Trong phương pháp khai thác dữ liệu mặc dù bạn có nhiều kỹ thuật hơn trong việc tìm kiếm sự phù hợp nhất.

Vì vậy, hãy ghi nhớ các lựa chọn thay thế (mà tôi sẽ sử dụng bản thân mình):

  1. thu được nhiều điểm dữ liệu hơn (nhắc lại rằng các yêu cầu VIF nhỏ hơn đối với tập dữ liệu lớn hơn và các biến giải thích nếu chúng thay đổi chậm, có thể thay đổi đối với một số điểm quan trọng theo thời gian hoặc mặt cắt ngang)
  2. tìm kiếm các yếu tố mạng thông qua các thành phần chính (sau này là các kết hợp trực giao để không đa cộng tuyến khi xây dựng, hơn nữa liên quan đến tất cả các biến giải thích)
  3. hồi quy sườn núi (nó đưa ra độ lệch nhỏ trong ước tính tham số, nhưng làm cho chúng ổn định cao)

Một số thủ thuật khác có trong bài viết wiki lưu ý ở trên.


3

Tôi tin rằng Belsely nói rằng CI trên 10 là dấu hiệu của một vấn đề vừa phải có thể xảy ra, trong khi trên 30 thì nghiêm trọng hơn.

Ngoài ra, mặc dù vậy, bạn nên xem phương sai được chia sẻ bởi các bộ biến trong các chỉ số điều kiện cao. Có một cuộc tranh luận (hoặc là, lần trước tôi đã đọc tài liệu này) về việc liệu cộng tác có liên quan đến một biến và chặn có vấn đề hay không, và liệu việc tập trung vào biến vi phạm có thoát khỏi vấn đề hay không, hay đơn giản là chuyển nó đi nơi khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.