Có một lý do mà nhà tư vấn thống kê của bạn không thể giải thích tại sao việc đưa tương tác vào mô hình tuyến tính có thể ảnh hưởng xấu đến cấu trúc tương quan: nó phụ thuộc vào hoàn cảnh và nói chung không đúng là có ảnh hưởng xấu. Chỉ cần nhìn vào các bộ dữ liệu được hiển thị trong ma trận phân tán dưới đây để thấy tất cả các cách khác nhau mà hai biến có thể liên quan đến sản phẩm của họ.
Phần còn lại của bài đăng này giải thích cách những con số đó được tạo ra và có thể cung cấp cái nhìn sâu sắc hơn về tình huống này.
Trước tiên, hãy hiểu rõ về cách viết: viết x3=x1x2, bạn có hồi quy bội liên quan đến ba biến x1,x2,x3. Có hay không có vấn đề về cộng tuyến phụ thuộc vào mối quan hệ tuyến tính giữa các xTôi. Đó là phổ quát.
Điều đặc biệt về vấn đề này là mối quan hệ giữa x3 và xTôi;cụ thể là x3= x1x2. Vì vậy, nếu bất cứ ai đã khuyên bạn nên cẩn thận, thì đó phải là do sự kỳ vọng rằng mối quan hệ nhân này về mặt toán học đòi hỏi một số loại đa hình trong số tất cả các xTôi.
Điều này không phải là như vậy, như có thể được chứng minh bằng cách trưng bày tất cả các mẫu có thể. Tôi không muốn làm bạn kiệt sức với việc đi qua tất cả các khả năng, vì vậy hãy để tôi chỉ phác thảo một vài trong số những minh họa nhất. Công cụ cơ bản tôi sẽ sử dụng trong nghiên cứu này là quan sát rằng mối tương quan giữa bất kỳ biến x1, x2 không thay đổi khi xTôi riêng biệt trải qua các biến đổi tuyến tính. Đó là, chúng ta có thể tự do nhân một biến với các hằng số và thêm các hằng số khác vào kết quả mà không thay đổi mối tương quan. Tuy nhiên, các hoạt động này có thể làm thay đổi sâu sắc mối tương quan giữa x1x2 vàxTôi.
(Gần) sản phẩm không đổi
Có thể x1x2 là hằng số (mà khi hồi quy bao gồm hằng số sẽ có vấn đề). Để tạo một ví dụ, chỉ cần tạo các giá trị khác 0 cho x1 và xác định x2= c / x1. Sản phẩm của họ bằng c khi xây dựng.
Bạn có thể làm nhiễu ví dụ này bằng cách thay đổi c ≠ 0 thành một biến ngẫu nhiên với các giá trị gần với c . Làm điều này sẽ giới thiệu một chút tương quan giữa xTôi và sản phẩm của họ, nhưng không nhiều. Ở đây, ví dụ, là một ví dụ nơi x1 được rút ra từ một Gamma ( 5 ) phân phối và c có phân phối chuẩn với trung bình 1 độ lệch và tiêu chuẩn chỉ là 1 / 100 :
Mặc dù xTôi có một mối tương quan của ρ1 ⋅ 2= - 0,87 trong ví dụ này, mối tương quan của họ với x1x2 chỉ - 0,06 và 0,00.
Do đó, mặc dù có thể có một chút vấn đề khi sử dụng cả x1 và x2 trong mô hình tuyến tính, bao gồm x1x2 không có khả năng làm trầm trọng thêm.
Sản phẩm không quan trọng
Để làm cho các phép tính rõ ràng hơn, chúng ta cũng có thể giả sử xTôi có phương sai đơn vị. Hãy để cho phương sai của x1x2 được τ2 và ghi ρ12 ⋅ i cho mối tương quan giữa x1x2 và xTôi. Hãy tính toán những gì xảy ra với các mối tương quan này khi các hằng số cTôi bị trừ khỏi xTôi.Bởi vì xTôi đóng vai trò đối xứng hoàn hảo (chỉ cần hoán đổi " 1 " cho " 2"Trong các chỉ mục), nó đủ để tính toán mối tương quan với x1:
Cor( ( x1- c1) ( x2- c2) , x1)= Cov( ( x1- c1) ( x2- c2) , x1)Var( x1- c1) ( x2- c2) Varx1-----------------------√= Cov( x1x2- c2x1- c1x2+ c1c2, x1)Var( x1x2- c1x2- c2x1+ c1c2)-------------------------√= τρ12 ⋅ 1- c2- c1ρ1 ⋅ 2τ2- c1ρ1 ⋅ 2- c2- 2 c1ρ12 ⋅ 2- 2 c2ρ12 ⋅ 1+ 2 c1c2ρ1 ⋅ 2-------------------------------------√.(*)
Không tương quan với sản phẩm
Bất kể mối tương quan giữa xTôi có thể là gì, chúng ta có thể chọn ( c1, c2) để làm cho sản phẩm không tương thích với xTôi.
Từ phân tích đã nói ở trên, điều này sẽ đạt được khi tử số của ( ∗ ) bằng 0 với i = 1 , 2 :
{ 0 = τρ12 ⋅ 1- c2- c1ρ1 ⋅ 20 = τρ12 ⋅ 2- c1- c2ρ1 ⋅ 2
Khi ρ21 ⋅ 2≠ 1 , hệ thống này của phương trình trong ( c1, c2) có một giải pháp độc đáo. Ở đây, ví dụ, là một ma trận phân tán của một tập dữ liệu của 100 giá trị, trong đó ( xTôi) có phân phối bình thường hai biến với tương quan ρ1 ⋅ 2= - 0,99 nhưng xTôi có không tương quan với x1x2 :
x1x2xTôi,
xTôi
Tương quan mạnh mẽ với sản phẩm
( ∗ )xTôixTôi,
Đây là một ví dụ dựa trên cái trước. Trong ví dụ này, x2 đã được đổi thành 1 + x2/ 100 do đó x1x2 là xấp xỉ bằng x1, làm cho nó mạnh tương quan thuận với x1x2. Thật vậy, ρ12 ⋅ 1= 0,9999878ρ12 ⋅ 2= - 0,9898793