Tôi đã học được rằng bằng cách sử dụng vif()
phương pháp car
gói, chúng ta có thể tính toán mức độ đa hình của các đầu vào trong một mô hình. Từ wikipedia , nếu vif
giá trị lớn hơn 5
thì chúng ta có thể xem xét rằng đầu vào đang gặp vấn đề về đa cộng đồng. Ví dụ, tôi đã phát triển một mô hình hồi quy tuyến tính bằng lm()
phương pháp và vif()
đưa ra như sau. Như chúng ta có thể thấy, các đầu vào ub
, lb
và tb
đang bị đa cộng tuyến.
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
Để tránh các vấn đề đa cộng tuyến và do đó làm cho mô hình của tôi mạnh mẽ hơn, tôi đã lấy tương tác giữa ub
và lb
, và bây giờ vif bảng của mô hình mới như sau:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
Không có nhiều sự khác biệt về R^2
giá trị và cũng như không có nhiều sự khác biệt trong các lỗi từ các bài kiểm tra CV một lần trong cả hai trường hợp trên.
Câu hỏi của tôi là:
Có ổn không để tránh vấn đề đa cộng đồng bằng cách thực hiện các tương tác như được hiển thị ở trên?
Có cách nào hay hơn để trình bày vấn đề đa cộng đồng so với kết quả phương pháp vif ở trên.
Vui lòng cung cấp cho tôi đề xuất của bạn.
Cảm ơn.