Tôi đã đào tạo một mô hình hồi quy tuyến tính, sử dụng một tập hợp các biến / tính năng. Và mô hình có một hiệu suất tốt. Tuy nhiên, tôi đã nhận ra rằng không có biến nào có tương quan tốt với biến dự đoán. Làm thế nào là nó có thể?
Tôi đã đào tạo một mô hình hồi quy tuyến tính, sử dụng một tập hợp các biến / tính năng. Và mô hình có một hiệu suất tốt. Tuy nhiên, tôi đã nhận ra rằng không có biến nào có tương quan tốt với biến dự đoán. Làm thế nào là nó có thể?
Câu trả lời:
Một cặp biến có thể cho thấy mối tương quan một phần cao (tương quan kế toán cho tác động của các biến khác) nhưng tương quan biên thấp - hoặc thậm chí bằng không (tương quan cặp).
Điều đó có nghĩa là mối tương quan theo cặp giữa một phản hồi, y và một số yếu tố dự đoán, x có thể có ít giá trị trong việc xác định các biến phù hợp với giá trị "dự đoán" (tuyến tính) giữa một tập hợp các biến khác.
Hãy xem xét các dữ liệu sau:
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
Tương quan giữa y và x là . Nếu tôi vẽ đường bình phương nhỏ nhất, nó nằm ngang hoàn toàn và R 2 tự nhiên sẽ là 0 .
Nhưng khi bạn thêm một biến g mới, cho biết hai nhóm quan sát đến từ đâu, x trở nên cực kỳ nhiều thông tin:
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
Các của một mô hình hồi quy tuyến tính với cả x và g biến trong nó sẽ là 1.
Điều này có thể xảy ra với mọi biến trong mô hình - tất cả đều có mối tương quan cặp nhỏ với phản hồi, nhưng mô hình với tất cả chúng đều rất tốt trong việc dự đoán đáp ứng.
Đọc thêm:
Tôi giả sử bạn đang đào tạo một mô hình hồi quy bội, trong đó bạn có nhiều biến độc lập , X 2 , ..., hồi quy trên Y. Câu trả lời đơn giản ở đây là một mối tương quan theo cặp giống như chạy mô hình hồi quy chưa được xác định. Như vậy, bạn đã bỏ qua các biến quan trọng.
Cụ thể hơn, khi bạn nói "không có biến nào có tương quan tốt với biến dự đoán", có vẻ như bạn đang kiểm tra mối tương quan theo cặp giữa mỗi biến độc lập với biến phụ thuộc, Y. Điều này có thể xảy ra khi mang lại sự quan trọng , thông tin mới và giúp làm sáng tỏ sự khó hiểu giữa X 1 và Y. Tuy nhiên, với sự bối rối đó, chúng ta có thể không thấy mối tương quan cặp đôi tuyến tính giữa X 1 và Y. Bạn cũng có thể muốn kiểm tra mối quan hệ giữa tương quan một phần ρ x 1 , y | x 2 và nhiều hồi quy y = β 1 x 1 , y .. Nhiều hồi quy có mối quan hệ chặt chẽ hơn với tương quan một phần so với tương quan cặp,
Xét về vector, nếu bạn có một tập hợp các vectơ và một vector y , sau đó nếu y là trực giao (zero tương quan) để mỗi vector trong X , sau đó nó cũng sẽ trực giao với bất kỳ sự kết hợp tuyến tính của các vectơ từ X . Tuy nhiên, nếu các vectơ trong X có thành phần không tương quan lớn, và các thành phần tương quan nhỏ, và các thành phần không tương quan là người phụ thuộc tuyến tính, sau đó y có thể được tương quan với một sự kết hợp tuyến tính của X . Nghĩa là, nếu X = x 1 , x 2 . . . và chúng ta hãy o i= Thành phần của x_i trực giao với y , = thành phần của song song x_i để y , sau đó nếu có tồn tại c i như rằng Σ c i o i = 0 , sau đó Σ c i x i sẽ được song song với y (ví dụ, một hoàn hảo dự đoán). Nếu Σ c i o i = 0 là nhỏ, sau đó Σ c i x i sẽ là một yếu tố dự báo tốt. Vì vậy, giả sử chúng ta có X 1 và X ~ N (0,1) và E ~ N (0,100). Bây giờ chúng ta tạo ra các cột mới X ' 1 và X ' 2 . Đối với mỗi hàng, chúng ta lấy một mẫu ngẫu nhiên từ E , thêm số đó để X 1 để có được X ' 1 , và trừ nó từ X 2 để có được X ' 2 . Vì mỗi hàng có cùng một mẫu E được thêm và trừ, nên các cột X ′ 1 và X ′ 2 sẽ là các yếu tố dự đoán hoàn hảo của Y, mặc dù mỗi người chỉ có một mối tương quan nhỏ với riêng lẻ.