Làm thế nào có thể có được một mô hình hồi quy tuyến tính tốt khi không có mối tương quan đáng kể giữa đầu ra và các yếu tố dự đoán?


17

Tôi đã đào tạo một mô hình hồi quy tuyến tính, sử dụng một tập hợp các biến / tính năng. Và mô hình có một hiệu suất tốt. Tuy nhiên, tôi đã nhận ra rằng không có biến nào có tương quan tốt với biến dự đoán. Làm thế nào là nó có thể?


3
Đây là những câu trả lời tuyệt vời, nhưng câu hỏi còn thiếu rất nhiều chi tiết mà các câu trả lời đang cố gắng điền vào. Câu hỏi lớn nhất trong đầu tôi là ý của bạn là "tương quan tốt".
DHW

Câu trả lời:


35

Một cặp biến có thể cho thấy mối tương quan một phần cao (tương quan kế toán cho tác động của các biến khác) nhưng tương quan biên thấp - hoặc thậm chí bằng không (tương quan cặp).

Điều đó có nghĩa là mối tương quan theo cặp giữa một phản hồi, y và một số yếu tố dự đoán, x có thể có ít giá trị trong việc xác định các biến phù hợp với giá trị "dự đoán" (tuyến tính) giữa một tập hợp các biến khác.

Hãy xem xét các dữ liệu sau:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

Tương quan giữa y và x là . Nếu tôi vẽ đường bình phương nhỏ nhất, nó nằm ngang hoàn toàn và R 2 tự nhiên sẽ là 0 .0R20

Nhưng khi bạn thêm một biến g mới, cho biết hai nhóm quan sát đến từ đâu, x trở nên cực kỳ nhiều thông tin:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

Các của một mô hình hồi quy tuyến tính với cả x và g biến trong nó sẽ là 1.R2

Plot of y vs x showing a lack of pairwise linear relationship but with color indicating the group; within each group the relationship is perfect

Điều này có thể xảy ra với mọi biến trong mô hình - tất cả đều có mối tương quan cặp nhỏ với phản hồi, nhưng mô hình với tất cả chúng đều rất tốt trong việc dự đoán đáp ứng.

Đọc thêm:

https://en.wikipedia.org/wiki/Omit-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox


Hành vi này có thể xảy ra trong một mô hình tuyến tính thực sự? Ở đây, mối quan hệ giữa màu sắc (g = 0/1) và phản hồi y dường như không tuyến tính. Tuy nhiên, điều có thể xảy ra là của mô hình không có g có thể (tùy ý?) Thấp hơn R 2 của mô hình với g . R2gR2g
Tối đa

Jeez, tôi nên đã xem xét mô hình chặt chẽ :) . Cào câu hỏi đó! y=x41g
Tối đa

Đó thực sự là mô hình mà theo đó phản hồi được tạo ra; nhưng bạn có thể thấy ngay lập tức tuyến tính của nó bằng cách tưởng tượng việc nhấc các điểm màu xanh ra một đơn vị tùy ý (về phía bạn từ bề mặt màn hình, dọc theo hướng trục "g" mới) và nhìn thấy một mặt phẳng khớp với sáu điểm.
Glen_b -Reinstate Monica

1
Trong hồi quy, các biến X được điều hòa và thường có thể được kiểm soát, do đó, "tính độc lập" thường không phải là thứ mà người ta tìm kiếm. Các thí nghiệm được thiết kế bên ngoài, các dự đoán độc lập hầu như không bao giờ được nhìn thấy trong mọi trường hợp và nếu bạn đã thiết kế các thí nghiệm thì các dự đoán không phải là biến ngẫu nhiên nên "tính độc lập" (theo nghĩa thống kê) không phải là thứ bạn đang nhìn - đúng hơn là thứ gì đó giống như tính trực giao lẫn nhau, có lẽ. ... ctd
Glen_b -Reinstate Monica

1
ctd ... Nếu bạn thực sự có ý nghĩa thống kê (lẫn nhau / p-variate) của tất cả các yếu tố dự đoán, thì bạn sẽ không nhận được hệ số chính xác bằng 0 trên các hồi quy đơn biến theo cách đó, nhưng bạn cũng không cần tách hoàn toàn như ví dụ trên .
Glen_b -Reinstate Monica

2

Tôi giả sử bạn đang đào tạo một mô hình hồi quy bội, trong đó bạn có nhiều biến độc lập , X 2X1X2 , ..., hồi quy trên Y. Câu trả lời đơn giản ở đây là một mối tương quan theo cặp giống như chạy mô hình hồi quy chưa được xác định. Như vậy, bạn đã bỏ qua các biến quan trọng.

Cụ thể hơn, khi bạn nói "không có biến nào có tương quan tốt với biến dự đoán", có vẻ như bạn đang kiểm tra mối tương quan theo cặp giữa mỗi biến độc lập với biến phụ thuộc, Y. Điều này có thể xảy ra khi mang lại sự quan trọng , thông tin mới và giúp làm sáng tỏ sự khó hiểu giữa X 1 và Y. Tuy nhiên, với sự bối rối đó, chúng ta có thể không thấy mối tương quan cặp đôi tuyến tính giữa X 1 và Y. Bạn cũng có thể muốn kiểm tra mối quan hệ giữa tương quan một phần ρ x 1 , y | x 2 và nhiều hồi quy y = β 1X2X1X1ρx1,y|x2 x 1 , y .y=β1X1+β2X2+ϵ. Nhiều hồi quy có mối quan hệ chặt chẽ hơn với tương quan một phần so với tương quan cặp, ρx1,y


0

Xét về vector, nếu bạn có một tập hợp các vectơ và một vector y , sau đó nếu y là trực giao (zero tương quan) để mỗi vector trong X , sau đó nó cũng sẽ trực giao với bất kỳ sự kết hợp tuyến tính của các vectơ từ X . Tuy nhiên, nếu các vectơ trong X có thành phần không tương quan lớn, và các thành phần tương quan nhỏ, và các thành phần không tương quan là người phụ thuộc tuyến tính, sau đó y có thể được tương quan với một sự kết hợp tuyến tính của X . Nghĩa là, nếu X = x 1 , x 2 . . . và chúng ta hãy o iXXXXXX=x1,x2...oi= Thành phần của x_i trực giao với y , = thành phần của song song x_i để y , sau đó nếu có tồn tại c i như rằng Σ c i o i = 0 , sau đó Σ c i x i sẽ được song song với y (ví dụ, một hoàn hảo dự đoán). Nếu Σ c i o i = 0 là nhỏ, sau đó Σ c i x i sẽ là một yếu tố dự báo tốt. Vì vậy, giả sử chúng ta có X 1Xpicicioi=0cixicioi=0cixiX1 ~ N (0,1) và E ~ N (0,100). Bây giờ chúng ta tạo ra các cột mới X ' 1 X ' 2 . Đối với mỗi hàng, chúng ta lấy một mẫu ngẫu nhiên từ E , thêm số đó để X 1 để có được X ' 1 , và trừ nó từ X 2 để có được X ' 2 . Vì mỗi hàng có cùng một mẫu E được thêm và trừ, nên các cột X 1 X 2 sẽ là các yếu tố dự đoán hoàn hảo của YX2EX1X2EX1X1X2X2EX1X2Y, mặc dù mỗi người chỉ có một mối tương quan nhỏ với riêng lẻ.Y

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.