Làm thế nào để hệ số tương quan khác với độ dốc hồi quy?


69

Tôi đã dự kiến ​​hệ số tương quan sẽ giống như độ dốc hồi quy (beta), tuy nhiên khi chỉ so sánh hai hệ số này thì chúng khác nhau. Làm thế nào để họ khác nhau - những thông tin khác nhau mà họ cung cấp?


3
nếu chúng được chuẩn hóa, chúng là như nhau. nhưng hãy nghĩ về những gì xảy ra khi bạn thay đổi đơn vị ...
nicolas

Tôi nghĩ rằng các câu trả lời được tính điểm cao nhất cho Q này (và thậm chí cả điểm A của tôi đối với câu hỏi mà tôi chỉ ra rằng hệ số tương quan có thể được xem là giá trị tuyệt đối của giá trị trung bình hình học của hai độ dốc mà chúng ta có được nếu chúng ta hồi quy y trên x và x trên y, tương ứng) cũng có liên quan ở đây
statmerkur

Câu trả lời:


82

Giả sử bạn đang nói về một mô hình hồi quy đơn giản ước tính theo bình phương tối thiểu, chúng tôi biết từ wikipedia rằng Do đó, hai chỉ trùng nhau khi . Đó là, chúng chỉ trùng khớp khi hai biến có cùng tỷ lệ, theo một nghĩa nào đó. Cách phổ biến nhất để đạt được điều này là thông qua tiêu chuẩn hóa, như được chỉ ra bởi @gung.

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

Cả hai, theo một nghĩa nào đó cung cấp cho bạn cùng một thông tin - chúng đều cho bạn biết sức mạnh của mối quan hệ tuyến tính giữa và . Nhưng, mỗi người cung cấp cho bạn thông tin riêng biệt (tất nhiên, ngoại trừ khi chúng giống hệt nhau):XiYi

  • Mối tương quan cung cấp cho bạn một phép đo giới hạn có thể được giải thích độc lập với thang đo của hai biến. Mối tương quan ước tính càng gần với , hai người càng gần mối quan hệ tuyến tính hoàn hảo . Độ dốc hồi quy, trong sự cô lập, không cho bạn biết thông tin đó.±1

  • Độ dốc hồi quy cung cấp một đại lượng hữu ích được hiểu là sự thay đổi ước tính trong giá trị dự kiến ​​của cho một giá trị . Cụ thể, cho bạn biết sự thay đổi giá trị dự kiến ​​của tương ứng với mức tăng 1 đơn vị trong . Thông tin này không thể được suy ra từ hệ số tương quan.YiXiβ^YiXi


Như một hệ quả của câu trả lời này, lưu ý rằng hồi quy x so với y không phải là nghịch đảo của hồi quy y so với x!
aginensky

23

Với hồi quy tuyến tính đơn giản (nghĩa là chỉ có 1 đồng biến), độ dốc giống như Pearson nếu cả hai biến được chuẩn hóa trước. (Để biết thêm thông tin, bạn có thể thấy câu trả lời của tôi ở đây hữu ích.) Khi bạn đang thực hiện nhiều hồi quy, điều này có thể phức tạp hơn do tính , v.v.β1r


14

Các hệ số tương quan đo lường "kín" của mối quan hệ tuyến tính giữa hai biến và được bao bọc giữa -1 và 1, bao gồm. Tương quan gần bằng 0 biểu thị không có mối liên hệ tuyến tính giữa các biến, trong khi tương quan gần -1 hoặc +1 chỉ ra mối quan hệ tuyến tính mạnh. Theo trực giác, bạn càng dễ dàng vẽ một đường phù hợp nhất thông qua một biểu đồ phân tán, chúng càng tương quan với nhau.

Độ dốc hồi quy đo "độ dốc" của mối quan hệ tuyến tính giữa hai biến và có thể lấy bất kỳ giá trị nào từ đến . Độ dốc gần bằng 0 có nghĩa là biến phản ứng (Y) thay đổi chậm khi biến dự đoán (X) thay đổi. Độ dốc xa hơn từ 0 (theo hướng tiêu cực hoặc tích cực) có nghĩa là phản ứng thay đổi nhanh hơn khi dự đoán thay đổi. Theo trực giác, nếu bạn vẽ một đường phù hợp nhất thông qua một biểu đồ tán xạ, nó càng dốc thì độ dốc của bạn càng xa từ 0.+

Vì vậy, hệ số tương quan và độ dốc hồi quy PHẢI có cùng dấu (+ hoặc -), nhưng hầu như sẽ không bao giờ có cùng giá trị.

Để đơn giản, câu trả lời này giả định hồi quy tuyến tính đơn giản.


bạn cho rằng beta có thể ở trong , nhưng không có trường hợp nào bị ràng buộc bởi beta được ngụ ý bởi tỷ lệ phương sai của x và y? inf,inf
Matifou

1

Hệ số tương quan của Pearson là không thứ nguyên và tỷ lệ giữa -1 và 1 bất kể kích thước và tỷ lệ của các biến đầu vào.

Nếu (ví dụ) bạn nhập một khối lượng bằng gam hoặc kilôgam, thì nó không khác biệt gì với giá trị của , trong khi điều này sẽ tạo ra sự khác biệt rất lớn đối với độ dốc / độ dốc (có kích thước và được chia tỷ lệ tương ứng ... tương tự, nó sẽ không có sự khác biệt so với nếu thang đo được điều chỉnh theo bất kỳ cách nào, kể cả sử dụng bảng Anh hoặc tấn thay thế).rr

Một minh chứng đơn giản (xin lỗi vì đã sử dụng Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

cho thấy mặc dù độ dốc đã được tăng lên theo hệ số 10.r=0.969363

Tôi phải thú nhận đó là một lừa gọn gàng mà đến được thu nhỏ giữa -1 và 1 (một trong những trường hợp tử số không bao giờ có thể có giá trị tuyệt đối lớn hơn mẫu số).r

Như @Macro đã trình bày chi tiết ở trên, độ dốc , vì vậy bạn đã đúng khi nói rằng Pearson có liên quan đến độ dốc, nhưng chỉ khi được điều chỉnh theo đến độ lệch chuẩn (phục hồi hiệu quả kích thước và tỷ lệ!).b=r(σyσx)r

Lúc đầu, tôi nghĩ thật kỳ quặc khi công thức dường như đề xuất một dòng được trang bị lỏng lẻo ( thấp ) dẫn đến độ dốc thấp hơn; sau đó tôi đã vẽ ra một ví dụ và nhận ra rằng đã đưa ra một độ dốc, thay đổi kết quả "nới lỏng" trong giảm nhưng điều này được bù đắp bằng sự gia tăng tỷ lệ trong .rrσy

Trong biểu đồ bên dưới, bốn bộ dữ liệu được vẽ:x,y

  1. kết quả của (vì vậy độ dốc , , , ) ... lưu ý rằngy=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. giống nhau nhưng được thay đổi bởi một số ngẫu nhiên, với , , , từ đó chúng ta có thể tínhr=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (vì vậy và , , )b=15r=1σx=0.58σy=8.66
  4. giống như (2) nhưng với phạm vi giảm nên (và vẫn , , ) xb=14.70r=0.2447σx=0.58σy=34.69tương quan và độ dốc

Có thể thấy rằng phương sai ảnh hưởng đến mà không nhất thiết ảnh hưởng đến , và các đơn vị đo có thể ảnh hưởng đến thang đo và do đó mà không ảnh hưởng đếnrbbr

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.