Đa cộng tuyến giữa ln (x) và ln (x) ^ 2


7

Tôi đang chạy một mô hình nhị thức âm và một trong các biến dự đoán của tôi là biến đếm. Vì biến này bị sai lệch nhiều, tôi quyết định chuyển đổi nó.

Tuy nhiên, ảnh hưởng của biến này được đưa ra giả thuyết là phi tuyến tính. Tuy nhiên, ngay sau khi tôi bao gồm thuật ngữ bình phương trong mô hình của mình, tôi đã thu được VIF của hai biến này> 20, trong khi tất cả các dự đoán khác vẫn ổn định ở VIF trong khoảng từ 1 đến 5.

Theo hiểu biết hiện tại của tôi, mối quan hệ không nên là tuyến tính và do đó không nên phát sinh đa hướng.

Bất cứ ai có thể giải thích nguyên nhân của đa cộng đồng và đưa ra giải pháp có thể cho vấn đề này?


Chà, f (x) = x ^ 2, đó là nơi phát sinh cộng tuyến. Nếu bạn muốn giảm cộng tuyến giữa x và x ^ 2, tôi khuyên bạn nên căn giữa x và sau đó bình phương hiệp phương sai. Xem bài đăng này: theanalysisfactor.com/ từ
Cân bằng Brash

Tên miền của gì? Đối với các giá trị rất nhỏ có thể được coi là xấp xỉ . xxx2
Dan

x nằm trong khoảng từ 1 đến 650, nhưng sau khi chuyển đổi nhật ký, các giá trị rõ ràng nhỏ hơn nhiều (từ 0 đến 2,8)
liệu thống kê

Có vẻ như bạn giả sử mối quan hệ giữa một biến và bình phương của nó (nó thực sự là nhật ký của và bình phương của nhật ký đó, nhưng điều đó không quá quan trọng ở đây) không phải là một tuyến tính và vì vậy chúng không tương quan. Những người khác đã giải thích lỗi này, nhưng bạn có thể quan tâm đến chủ đề liên quan này: Mối tương quan Pearson giữa một biến và bình phương của nó . x
Cá bạc

Câu trả lời:


12

Ngoại trừ số lượng rất nhỏ, về cơ bản là một hàm tuyến tính của :log(x)2log(x)

Hình hiển thị các ô và khớp tuyến tính

Các đường màu được bình phương tối thiểu phù hợp với so với cho các phạm vi khác nhau của số . Chúng cực kỳ tốt khi vượt quá (và vẫn cực kỳ tốt ngay cả khi hoặc hơn).log(x)2log(x)xx10x>4

Giới thiệu bình phương của một biến đôi khi được sử dụng để kiểm tra mức độ phù hợp, nhưng (theo kinh nghiệm của tôi) hiếm khi là một lựa chọn tốt như một biến giải thích. Để tính đến phản hồi phi tuyến, hãy xem xét các tùy chọn sau:

  • Nghiên cứu bản chất của phi tuyến. Chọn các biến thích hợp và / hoặc biến đổi để nắm bắt nó.

  • Giữ số lượng chính nó trong mô hình. Vẫn sẽ có cộng tuyến cho số lượng lớn hơn, vì vậy hãy xem xét việc tạo một cặp biến trực giao từ và để đạt được sự phù hợp về mặt số.xlog(x)

  • Sử dụng splines của (và / hoặc ) để mô hình hóa phi tuyến.xlog(x)

  • Bỏ qua vấn đề hoàn toàn. Nếu bạn có đủ dữ liệu, một VIF lớn có thể không quan trọng. Trừ khi mục đích của bạn là để có được ước tính hệ số chính xác (mà sự sẵn sàng chuyển đổi của bạn cho thấy không phải là trường hợp), thì dù sao thì việc cộng tác cũng hiếm khi xảy ra.


Đây là câu trả lời tôi thích vì nó giải quyết thành phần của câu hỏi mà tôi không thực hiện được dưới đây. log(x)
Cân bằng Brash

cảm ơn bạn đã trả lời, điều đó làm cho nó hoàn toàn rõ ràng! Theo dõi - Tôi muốn hiển thị lợi nhuận giảm dần cho biến đó và tôi chỉ biết về tùy chọn giới thiệu một thuật ngữ bình phương. Điều gì sẽ là một cách tiếp cận phù hợp hơn khi xem xét việc sử dụng một bản ghi?
thống kê

Bất kỳ lựa chọn nào trong bốn lựa chọn đạn sẽ là một khả năng.
whuber

1

Nguồn của cộng tuyến là . Một cách để giảm mối tương quan giữa và là vào tâm . Đặt và tính . Vì đầu thấp của thang đo hiện có các giá trị tuyệt đối lớn, hình vuông của nó trở nên lớn, làm cho mối quan hệ giữa và ít tuyến tính hơn so với giữa và . Lời khuyên này xuất phát từ Yếu tố phân tích: http://www.theanalysisfactor.com/centering-for-multicollinearity-b between-main-effect-and-interaction-terms /f(x)=x2xx2xz=xE(x)z2zz2xx2

Lưu ý : Khi diễn giải các hiệu ứng, xin nhớ rằng bạn đã chia tỷ lệ đồng biến. Ngoài ra, một số nhà nghiên cứu có thể thận trọng chống lại việc mở rộng quy mô vì khi đó kết quả của mô hình của bạn phụ thuộc vào dữ liệu. Dưới đây là một số quan điểm của Andrew Gelman về vấn đề đó: http://andrewgelman.com/2009/07/11/when_to_standar/


Cảm ơn! Tôi có hai câu hỏi về cách tiếp cận này: Thứ nhất, là x bạn đang đề cập đến x chưa được dịch hoặc ln (x)? Định tâm ln (x) không dẫn đến những cải tiến lớn (VIF là 16). Thứ hai, bạn có nghĩa là trung bình của X với E (x), do đó có nghĩa là định tâm biến?
thống kê

Ah, điểm tốt, tôi quên một phần câu hỏi của bạn. Tôi sẽ tham khảo câu trả lời từ @whuber.
Cân bằng Brash
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.