Tôi đã dự kiến hệ số tương quan sẽ giống như độ dốc hồi quy (beta), tuy nhiên khi chỉ so sánh hai hệ số này thì chúng khác nhau. Làm thế nào để họ khác nhau - những thông tin khác nhau mà họ cung cấp?
Tôi đã dự kiến hệ số tương quan sẽ giống như độ dốc hồi quy (beta), tuy nhiên khi chỉ so sánh hai hệ số này thì chúng khác nhau. Làm thế nào để họ khác nhau - những thông tin khác nhau mà họ cung cấp?
Câu trả lời:
Giả sử bạn đang nói về một mô hình hồi quy đơn giản ước tính theo bình phương tối thiểu, chúng tôi biết từ wikipedia rằng Do đó, hai chỉ trùng nhau khi . Đó là, chúng chỉ trùng khớp khi hai biến có cùng tỷ lệ, theo một nghĩa nào đó. Cách phổ biến nhất để đạt được điều này là thông qua tiêu chuẩn hóa, như được chỉ ra bởi @gung.
Cả hai, theo một nghĩa nào đó cung cấp cho bạn cùng một thông tin - chúng đều cho bạn biết sức mạnh của mối quan hệ tuyến tính giữa và . Nhưng, mỗi người cung cấp cho bạn thông tin riêng biệt (tất nhiên, ngoại trừ khi chúng giống hệt nhau):
Mối tương quan cung cấp cho bạn một phép đo giới hạn có thể được giải thích độc lập với thang đo của hai biến. Mối tương quan ước tính càng gần với , hai người càng gần mối quan hệ tuyến tính hoàn hảo . Độ dốc hồi quy, trong sự cô lập, không cho bạn biết thông tin đó.
Độ dốc hồi quy cung cấp một đại lượng hữu ích được hiểu là sự thay đổi ước tính trong giá trị dự kiến của cho một giá trị . Cụ thể, cho bạn biết sự thay đổi giá trị dự kiến của tương ứng với mức tăng 1 đơn vị trong . Thông tin này không thể được suy ra từ hệ số tương quan.
Các hệ số tương quan đo lường "kín" của mối quan hệ tuyến tính giữa hai biến và được bao bọc giữa -1 và 1, bao gồm. Tương quan gần bằng 0 biểu thị không có mối liên hệ tuyến tính giữa các biến, trong khi tương quan gần -1 hoặc +1 chỉ ra mối quan hệ tuyến tính mạnh. Theo trực giác, bạn càng dễ dàng vẽ một đường phù hợp nhất thông qua một biểu đồ phân tán, chúng càng tương quan với nhau.
Độ dốc hồi quy đo "độ dốc" của mối quan hệ tuyến tính giữa hai biến và có thể lấy bất kỳ giá trị nào từ đến . Độ dốc gần bằng 0 có nghĩa là biến phản ứng (Y) thay đổi chậm khi biến dự đoán (X) thay đổi. Độ dốc xa hơn từ 0 (theo hướng tiêu cực hoặc tích cực) có nghĩa là phản ứng thay đổi nhanh hơn khi dự đoán thay đổi. Theo trực giác, nếu bạn vẽ một đường phù hợp nhất thông qua một biểu đồ tán xạ, nó càng dốc thì độ dốc của bạn càng xa từ 0.
Vì vậy, hệ số tương quan và độ dốc hồi quy PHẢI có cùng dấu (+ hoặc -), nhưng hầu như sẽ không bao giờ có cùng giá trị.
Để đơn giản, câu trả lời này giả định hồi quy tuyến tính đơn giản.
Hệ số tương quan của Pearson là không thứ nguyên và tỷ lệ giữa -1 và 1 bất kể kích thước và tỷ lệ của các biến đầu vào.
Nếu (ví dụ) bạn nhập một khối lượng bằng gam hoặc kilôgam, thì nó không khác biệt gì với giá trị của , trong khi điều này sẽ tạo ra sự khác biệt rất lớn đối với độ dốc / độ dốc (có kích thước và được chia tỷ lệ tương ứng ... tương tự, nó sẽ không có sự khác biệt so với nếu thang đo được điều chỉnh theo bất kỳ cách nào, kể cả sử dụng bảng Anh hoặc tấn thay thế).
Một minh chứng đơn giản (xin lỗi vì đã sử dụng Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
cho thấy mặc dù độ dốc đã được tăng lên theo hệ số 10.
Tôi phải thú nhận đó là một lừa gọn gàng mà đến được thu nhỏ giữa -1 và 1 (một trong những trường hợp tử số không bao giờ có thể có giá trị tuyệt đối lớn hơn mẫu số).
Như @Macro đã trình bày chi tiết ở trên, độ dốc , vì vậy bạn đã đúng khi nói rằng Pearson có liên quan đến độ dốc, nhưng chỉ khi được điều chỉnh theo đến độ lệch chuẩn (phục hồi hiệu quả kích thước và tỷ lệ!).
Lúc đầu, tôi nghĩ thật kỳ quặc khi công thức dường như đề xuất một dòng được trang bị lỏng lẻo ( thấp ) dẫn đến độ dốc thấp hơn; sau đó tôi đã vẽ ra một ví dụ và nhận ra rằng đã đưa ra một độ dốc, thay đổi kết quả "nới lỏng" trong giảm nhưng điều này được bù đắp bằng sự gia tăng tỷ lệ trong .
Trong biểu đồ bên dưới, bốn bộ dữ liệu được vẽ:
Có thể thấy rằng phương sai ảnh hưởng đến mà không nhất thiết ảnh hưởng đến , và các đơn vị đo có thể ảnh hưởng đến thang đo và do đó mà không ảnh hưởng đến