Sự khác biệt giữa tương quan và hồi quy tuyến tính đơn giản là gì?


Câu trả lời:


114

Sự khác biệt giữa tương quan giữa và và hồi quy tuyến tính dự đoán từ gì?Y Y XXYYX

Đầu tiên, một số điểm tương đồng :

  • hệ số hồi quy chuẩn hóa giống như hệ số tương quan của Pearson
  • Bình phương hệ số tương quan của Pearson giống như trong hồi quy tuyến tính đơn giảnR2
  • Không hồi quy tuyến tính đơn giản cũng không tương quan trả lời các câu hỏi về quan hệ nhân quả trực tiếp. Điểm này rất quan trọng, bởi vì tôi đã gặp những người mà nghĩ rằng hồi quy đơn giản một cách kỳ diệu có thể cho phép một suy luận rằng gây .YXY

Thứ hai, một số khác biệt :

  • Phương trình hồi quy (nghĩa là ) có thể được sử dụng để đưa ra dự đoán về dựa trên các giá trị củaY Xa+bXYX
  • Trong khi mối tương quan thường đề cập đến mối quan hệ tuyến tính, nó có thể đề cập đến các hình thức phụ thuộc khác, chẳng hạn như mối quan hệ đa thức hoặc thực sự phi tuyến tính
  • Mặc dù mối tương quan thường đề cập đến hệ số tương quan của Pearson, có những loại tương quan khác, chẳng hạn như Spearman.

Xin chào Jeromy, cảm ơn bạn đã giải thích, nhưng tôi vẫn có một câu hỏi ở đây: Điều gì xảy ra nếu tôi không cần đưa ra dự đoán và chỉ muốn biết hai biến gần nhau như thế nào và theo hướng / sức mạnh nào? Có còn khác nhau khi sử dụng hai kỹ thuật này?
yue86231

3
@ yue86231 Sau đó, có vẻ như một thước đo tương quan sẽ phù hợp hơn.
Jeromy Anglim

5
(+1) Để tương tự, có thể hữu ích khi thêm các phép thử tiêu chuẩn của giả thuyết "tương quan = 0" hoặc, tương đương, "dốc = 0" (đối với hồi quy theo thứ tự), như được thực hiện bởi lmcor.testtrong R, sẽ mang lại giá trị p giống hệt nhau.
whuber

3
Tôi đồng ý rằng nên thêm đề xuất từ ​​@whuber, nhưng ở mức độ rất cơ bản, tôi nghĩ rằng đáng để chỉ ra rằng dấu hiệu của độ dốc hồi quy và hệ số tương quan là bằng nhau. Đây có lẽ là một trong những điều đầu tiên mà hầu hết mọi người tìm hiểu về mối quan hệ giữa tương quan và "đường phù hợp nhất" (ngay cả khi họ chưa gọi nó là "hồi quy") nhưng tôi nghĩ nó đáng chú ý. Đối với sự khác biệt, thực tế là bạn nhận được cùng một câu trả lời tương quan X với Y hoặc ngược lại, nhưng hồi quy của Y trên X khác với X trên Y, cũng có thể đáng được đề cập.
Cá bạc

36

Đây là câu trả lời tôi đã đăng trên trang web graphpad.com :

Tương quan và hồi quy tuyến tính không giống nhau. Hãy xem xét những khác biệt sau:

  • Tương quan định lượng mức độ mà hai biến có liên quan. Tương quan không phù hợp với một dòng thông qua dữ liệu.
  • Với mối tương quan, bạn không phải suy nghĩ về nguyên nhân và kết quả. Bạn chỉ cần định lượng mức độ hai biến liên quan với nhau. Với hồi quy, bạn phải suy nghĩ về nguyên nhân và kết quả vì đường hồi quy được xác định là cách tốt nhất để dự đoán Y từ X.
  • Với mối tương quan, không có vấn đề nào trong hai biến bạn gọi là "X" và bạn gọi là "Y". Bạn sẽ có được hệ số tương quan tương tự nếu bạn trao đổi hai. Với hồi quy tuyến tính, quyết định của biến bạn gọi là "X" và quyết định của bạn gọi là "Y" là gì, vì bạn sẽ nhận được một dòng phù hợp nhất khác nếu bạn trao đổi hai biến. Dòng dự đoán tốt nhất Y từ X không giống với dòng dự đoán X từ Y (trừ khi bạn có dữ liệu hoàn hảo không có phân tán.)
  • Tương quan hầu như luôn được sử dụng khi bạn đo cả hai biến. Nó hiếm khi thích hợp khi một biến là thứ bạn thao tác thử nghiệm. Với hồi quy tuyến tính, biến X thường là thứ bạn thao tác thực nghiệm (thời gian, nồng độ ...) và biến Y là thứ bạn đo được.

13
"Cách tốt nhất để dự đoán Y từ X" không liên quan gì đến nguyên nhân và kết quả: X có thể là nguyên nhân của Y hoặc ngược lại. Người ta có thể lý do từ nguyên nhân đến hiệu ứng (khấu trừ) hoặc từ tác động đến nguyên nhân (bắt cóc).
Neil G

4
"Bạn sẽ nhận được một dòng phù hợp nhất khác nhau nếu bạn trao đổi cả hai" là một chút sai lệch; độ dốc chuẩn hóa sẽ giống nhau trong cả hai trường hợp.
xenocyon

26

Trong trường hợp dự báo duy nhất của hồi quy tuyến tính, độ dốc chuẩn hóa có cùng giá trị với hệ số tương quan. Ưu điểm của hồi quy tuyến tính là mối quan hệ có thể được mô tả theo cách mà bạn có thể dự đoán (dựa trên mối quan hệ giữa hai biến) điểm số trên biến dự đoán với bất kỳ giá trị cụ thể nào của biến dự đoán. Cụ thể, một phần thông tin, hồi quy tuyến tính cung cấp cho bạn rằng một mối tương quan không phải là đánh chặn, giá trị trên biến dự đoán khi dự đoán là 0.

Nói tóm lại - chúng tạo ra kết quả giống hệt nhau về mặt tính toán, nhưng có nhiều yếu tố có khả năng diễn giải trong hồi quy tuyến tính đơn giản. Nếu bạn quan tâm đến việc mô tả đơn giản mức độ quan hệ giữa hai biến, hãy sử dụng mối tương quan - nếu bạn quan tâm đến việc dự đoán hoặc giải thích kết quả của mình theo các giá trị cụ thể mà bạn có thể muốn hồi quy.


"Cụ thể một thông tin, hồi quy tuyến tính cung cấp cho bạn rằng một mối tương quan không phải là đánh chặn" ... Rất nhiều sự khác biệt!
SIslam 17/2/2016

Chà, nhìn lại điều đó, đúng là hồi quy cung cấp một lệnh chặn là bởi vì nó là mặc định cho nhiều gói thống kê để làm như vậy. Người ta có thể dễ dàng tính toán hồi quy mà không cần chặn.
russellpierce

Có, người ta có thể dễ dàng tính toán hồi quy mà không bị chặn nhưng điều đó sẽ hiếm khi có ý nghĩa: stats.stackexchange.com/questions/102709/ Lỗi
kjetil b halvorsen

@kjetilbhalvorsen Ngoại trừ như trong trường hợp tôi đã mô tả khi bạn lắp độ dốc chuẩn. Thuật ngữ chặn trong phương trình hồi quy chuẩn hóa luôn là 0. Tại sao? Bởi vì cả IV và DV đã được chuẩn hóa thành điểm số đơn vị - kết quả là phần chặn được định nghĩa bằng 0. Chính xác là loại trường hợp bạn mô tả trong câu trả lời của mình. (tương đương với tiêu chuẩn hóa IV và DV). Khi cả IV và DV đã được chuẩn hóa thành 0, thì phần chặn được định nghĩa là 0.
russellpierce

11

Phân tích tương quan chỉ định lượng mối quan hệ giữa hai biến bỏ qua đó là biến phụ thuộc và biến độc lập. Nhưng trước khi hồi quy appliyng, bạn phải bình tĩnh tác động của biến nào bạn muốn kiểm tra biến khác.


9

Tất cả các câu trả lời cho đến nay đều cung cấp những hiểu biết quan trọng nhưng không nên quên rằng bạn có thể chuyển đổi các tham số của cái này sang cái khác:

Hồi quy:y=mx+b

Kết nối giữa các tham số hồi quy và tương quan, hiệp phương sai, phương sai, độ lệch chuẩn và phương tiện: b= ˉ y -m ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Vì vậy, bạn có thể chuyển đổi cả hai thành nhau bằng cách chia tỷ lệ và thay đổi các tham số của chúng.

Một ví dụ trong R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

Từ mối tương quan, chúng ta chỉ có thể có được một chỉ số mô tả mối quan hệ tuyến tính giữa hai biến; trong hồi quy chúng ta có thể dự đoán mối quan hệ giữa hơn hai biến và có thể sử dụng nó để xác định biến x nào có thể dự đoán biến kết quả y .


3

Trích dẫn Altman DG, "Số liệu thống kê thực tế cho nghiên cứu y học" Chapman & Hall, 1991, trang 321: "Tương quan làm giảm một tập hợp dữ liệu thành một số duy nhất không liên quan trực tiếp đến dữ liệu thực tế. Hồi quy là phương pháp hữu ích hơn nhiều, với kết quả có liên quan rõ ràng với phép đo thu được. Độ mạnh của mối quan hệ là rõ ràng và độ không đảm bảo có thể được nhìn thấy rõ ràng từ khoảng tin cậy hoặc khoảng dự đoán "


3
Mặc dù tôi đồng cảm với Altman - phương pháp hồi quy thường phù hợp hơn so với tương quan trong nhiều trường hợp - trích dẫn này đang thiết lập một đối số người rơm. Trong hồi quy OLS, thông tin được tạo ra tương đương với thông tin được cung cấp trong tính toán tương quan (tất cả các khoảnh khắc bivariate thứ nhất và thứ hai và các lỗi tiêu chuẩn của chúng) và hệ số tương quan cung cấp thông tin tương tự như độ dốc hồi quy. Hai cách tiếp cận khác nhau một chút trong các mô hình dữ liệu cơ bản mà họ giả định và trong cách giải thích của họ, nhưng không phải theo cách mà Altman tuyên bố.
whuber

1

Phân tích hồi quy là một kỹ thuật để nghiên cứu nguyên nhân ảnh hưởng của mối quan hệ giữa hai biến. trong khi đó, phân tích tương quan là một kỹ thuật để nghiên cứu định lượng mối quan hệ giữa hai biến.


6
Chào mừng đến với CV! Cho rằng đã có rất nhiều câu trả lời cho câu hỏi này, bạn có muốn xem chúng & xem bạn có thêm gì mới không? Nếu bạn muốn nói nhiều hơn, bạn có thể chỉnh sửa nó để làm như vậy.
Scortchi

0

Tương quan là một chỉ số (chỉ một số) về sức mạnh của mối quan hệ. Hồi quy là một phân tích (ước tính các tham số của một mô hình và kiểm tra thống kê về tầm quan trọng của chúng) về tính đầy đủ của một mối quan hệ chức năng cụ thể. Kích thước của mối tương quan có liên quan đến mức độ chính xác của các dự đoán của hồi quy.


1
Không, không phải vậy. Tương quan cho chúng ta một mối quan hệ ràng buộc nhưng nó không liên quan đến mức độ chính xác của các dự đoán. R2 cho rằng.
SmallChess

-3

Tương quan là một thuật ngữ trong một thống kê xác định xem liệu có mối quan hệ giữa hai và sau đó mức độ của mối quan hệ. Phạm vi của nó là từ -1 đến +1. Trong khi hồi quy có nghĩa là quay trở lại mức trung bình. Từ hồi quy, chúng tôi dự đoán giá trị bằng cách giữ một biến phụ thuộc và độc lập khác nhưng cần làm rõ giá trị của biến nào chúng tôi muốn dự đoán.


6
Xin chào, @shakir và chào mừng bạn đến với Xác thực chéo! Bạn có thể nhận thấy rằng đây là một câu hỏi cũ (từ năm 2010) và đã có bảy câu trả lời (!) Cho nó. Sẽ là một ý tưởng tốt để đảm bảo rằng câu trả lời mới của bạn thêm một điều quan trọng vào cuộc thảo luận chưa được đề cập trước đó. Hiện tại tôi không chắc đó là trường hợp.
amip
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.