Xử lý đa thần kinh


12

Tôi đã học được rằng bằng cách sử dụng vif()phương pháp cargói, chúng ta có thể tính toán mức độ đa hình của các đầu vào trong một mô hình. Từ wikipedia , nếu vifgiá trị lớn hơn 5thì chúng ta có thể xem xét rằng đầu vào đang gặp vấn đề về đa cộng đồng. Ví dụ, tôi đã phát triển một mô hình hồi quy tuyến tính bằng lm()phương pháp và vif()đưa ra như sau. Như chúng ta có thể thấy, các đầu vào ub, lbtbđang bị đa cộng tuyến.

 vif(lrmodel)
     tb        ub        lb          ma     ua        mb         sa     sb 
 7.929757 50.406318 30.826721  1.178124  1.891218  1.364020  2.113797  2.357946

Để tránh các vấn đề đa cộng tuyến và do đó làm cho mô hình của tôi mạnh mẽ hơn, tôi đã lấy tương tác giữa ublb, và bây giờ vif bảng của mô hình mới như sau:

   tb     ub:lb      ma       mb      sa        sb     ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218

Không có nhiều sự khác biệt về R^2giá trị và cũng như không có nhiều sự khác biệt trong các lỗi từ các bài kiểm tra CV một lần trong cả hai trường hợp trên.

Câu hỏi của tôi là:

  1. Có ổn không để tránh vấn đề đa cộng đồng bằng cách thực hiện các tương tác như được hiển thị ở trên?

  2. Có cách nào hay hơn để trình bày vấn đề đa cộng đồng so với kết quả phương pháp vif ở trên.

Vui lòng cung cấp cho tôi đề xuất của bạn.

Cảm ơn.


Là mô hình hồi quy log-log mô hình của bạn (tương tác là hạn chế là ok với chúng)? Trong wiki có một bài viết đầy đủ hơn về vấn đề đa cộng đồng en.wikipedia.org/wiki/Multicollinearity Ngoài ra tôi đề nghị khám phá thẻ đa cộng đồng trên trang web này, nó dường như là một câu hỏi thường gặp.
Dmitrij Celov

@Dmitrij Celov: Cảm ơn bạn. Không, mô hình của tôi là hồi quy tuyến tính đơn giản không có nhật ký ...
samarasa

Câu trả lời:


10

Bạn dường như bao gồm các thuật ngữ tương tác ub:lb, nhưng không phải ublbbản thân chúng là các yếu tố dự đoán riêng biệt. Điều này sẽ vi phạm cái gọi là "nguyên tắc cận biên", quy định rằng các thuật ngữ bậc cao hơn chỉ nên bao gồm các biến có trong các thuật ngữ bậc thấp hơn ( Wikipedia để bắt đầu ). Thực tế, bây giờ bạn đang bao gồm một công cụ dự đoán chỉ là sản phẩm khôn ngoan của ublb.

chỉ là 1VIFj trong đóR 2 j làgiá trịR2khi bạn chạy hồi quy với biến dự báo ban đầujlà tiêu chí được dự đoán bởi tất cả các yếu tố dự đoán còn lại (cũng làphần tử đường chéo thứjcủaR - 1 x , nghịch đảo của ma trận tương quan của các yếu tố dự đoán). Một VIF có giá trị là 50 do đó chỉ ra rằng bạn nhận được mộtR2của 0,98 khi dự đoánvới các dự đoán khác, chỉ ra rằnggần như là hoàn toàn không cần thiết (tương tự cho,R2của 0,97).11Rj2Rj2R2jjRx1R2ubublbR2

Tôi sẽ bắt đầu thực hiện tất cả các mối tương quan theo cặp giữa các yếu tố dự đoán và chạy các hồi quy đã nói ở trên để xem biến nào dự đoán ublbđể xem liệu có dễ dàng giải thích được không. Nếu vậy, bạn có thể loại bỏ các dự đoán dự phòng. Bạn cũng có thể xem xét hồi quy sườn ( lm.ridge()từ gói MASStrong R).

Chẩn đoán đa hướng tiên tiến hơn sử dụng cấu trúc eigenvalue của trong đó X là ma trận thiết kế của hồi quy (nghĩa là tất cả các yếu tố dự đoán dưới dạng vectơ cột). Điều kiện κXtXXκ nơiλmmộtxλminlà lớn nhất và nhỏ nhất (0giá trị riêng) củaXtX. Trong R, bạn có thể sử dụng, trong đómô hình thường sử dụng các biến được tiêu chuẩn hóa.λmaxλminλmaxλmin0XtXkappa(lm(<formula>))lm()

κκ

κκvif(lm(y ~ x1 + x2))vif(lm(scale(y) ~ scale(x1) + scale(x2)))kappa(lm(y ~ x1 + x2))kappa(lm(scale(y) ~ scale(x1) + scale(x2)))


ub lbalogub+aloglb=alogublbublb , nó có lẽ là sự chuyển đổi tốt hơn.
Dmitrij Celov

@Dmitrij: Không, ub + lb + sb = 100.
samarasa

Có bất kỳ đại diện đồ họa đẹp cho đa cộng đồng? Xin vui lòng gợi ý cho tôi nếu có bất kỳ phương pháp nào trong R cho thi.
samarasa

2
pairs()scatterplot3dκ2perturb

1

Bạn cũng nên xem xét giá trị P trong quá trình xem xét biến.

  1. Nếu Giá trị P rất thấp (p <0,05) và VIF cao (> 5) thì có lẽ bạn nên xem xét các biến không đáng kể khác. Và xây dựng lại mô hình của bạn.
  2. Nếu bạn có giá trị P và VIF đều cao thì biến này sẽ không đáng kể.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.