Sự khác biệt giữa hồi quy tuyến tính trên y với x và x với y là gì?


97

Hệ số tương quan Pearson của x và y là như nhau, cho dù bạn tính pearson (x, y) hay pearson (y, x). Điều này cho thấy rằng thực hiện hồi quy tuyến tính của y cho x hoặc x đã cho y là như nhau, nhưng tôi không nghĩ đó là trường hợp.

Ai đó có thể làm sáng tỏ khi mối quan hệ không đối xứng, và làm thế nào điều đó liên quan đến hệ số tương quan Pearson (mà tôi luôn nghĩ là tóm tắt dòng phù hợp nhất)?


1
Mọi ma trận tương quan sẽ đối xứng vì cov(x,y)=cov(y,x) . Tôi khuyến khích bạn làm toán để thấy rằng điều này thực sự đúng. Nếu bạn biết mối quan hệ giữa xy (hoặc bất kể các biến quan tâm là gì) không đối xứng với một tiên nghiệm , nó có thể có lợi cho bạn để xem xét các phương pháp phân tích khác.
Đám mây Phillip

14
Điểm thú vị đã được thực hiện trên một câu hỏi liên quan, Hiệu ứng của phản ứng chuyển đổi và biến giải thích trong hồi quy tuyến tính đơn giản .
chl

Câu trả lời:


159

Cách tốt nhất để suy nghĩ về điều này là tưởng tượng một biểu đồ phân tán các điểm có trên trục tung và x được biểu thị bằng trục hoành. Dựa vào khung này, bạn sẽ thấy một đám mây điểm, có thể là hình tròn mơ hồ hoặc có thể được kéo dài thành hình elip. Những gì bạn đang cố gắng thực hiện trong hồi quy là tìm thứ có thể được gọi là 'dòng phù hợp nhất'. Tuy nhiên, trong khi điều này có vẻ đơn giản, chúng ta cần tìm ra ý nghĩa của từ 'tốt nhất' và điều đó có nghĩa là chúng ta phải xác định những gì sẽ là tốt cho một dòng hoặc tốt hơn một dòng tốt hơn một dòng khác, v.v. , chúng ta phải quy định một chức năng mấtyx. Hàm mất mát cung cấp cho chúng ta một cách để nói mức độ "xấu" của một cái gì đó, và do đó, khi chúng ta giảm thiểu điều đó, chúng ta sẽ tạo ra dòng 'tốt nhất có thể' hoặc tìm dòng 'tốt nhất'.

Theo truyền thống, khi chúng tôi tiến hành phân tích hồi quy, chúng tôi tìm thấy các ước tính về độ dốc và đánh chặn để giảm thiểu tổng các lỗi bình phương . Chúng được định nghĩa như sau:

SSE=i=1N(yi(β^0+β^1xi))2

Về mặt phân tán của chúng tôi, điều này có nghĩa chúng ta đang giảm thiểu (tổng các bình phương) khoảng cách thẳng đứng giữa các điểm dữ liệu quan sát và dòng.

nhập mô tả hình ảnh ở đây

Mặt khác, hoàn toàn hợp lý khi hồi quy lên y , nhưng trong trường hợp đó, chúng ta sẽ đặt x trên trục tung, v.v. Nếu chúng ta giữ nguyên âm mưu của mình (với x trên trục hoành), hồi quy x lên y (một lần nữa, sử dụng phiên bản điều chỉnh một chút của phương trình trên với xy đã chuyển) có nghĩa là chúng ta sẽ giảm thiểu tổng khoảng cách ngangxyxxxyxygiữa các điểm dữ liệu quan sát và đường. Điều này nghe có vẻ rất giống nhau, nhưng không hoàn toàn giống nhau. (Cách nhận biết điều này là thực hiện cả hai cách, và sau đó chuyển đổi một cách đại số một bộ ước tính tham số thành các điều khoản của mô hình kia. So sánh mô hình đầu tiên với phiên bản được sắp xếp lại của mô hình thứ hai, chúng ta dễ dàng nhận ra rằng chúng là không giống nhau.)

nhập mô tả hình ảnh ở đây

Lưu ý rằng không có cách nào tạo ra cùng một dòng chúng ta sẽ vẽ bằng trực giác nếu ai đó đưa cho chúng ta một mảnh giấy vẽ đồ thị với các điểm được vẽ trên đó. Trong trường hợp đó, chúng ta sẽ vẽ một đường thẳng qua tâm, nhưng giảm thiểu khoảng cách theo chiều dọc sẽ tạo ra một đường thẳng hơn một chút (nghĩa là với độ dốc nông hơn), trong khi giảm thiểu khoảng cách ngang sẽ tạo ra một đường dốc hơn một chút .

Một mối tương quan là đối xứng; tương quan với y như y với x . Tuy nhiên, mối tương quan thời điểm sản phẩm Pearson có thể được hiểu trong bối cảnh hồi quy. Hệ số tương quan, r , là độ dốc của đường hồi quy khi cả hai biến đã được chuẩn hóa trước. Đó là, trước tiên bạn trừ đi giá trị trung bình từ mỗi quan sát, sau đó chia sự khác biệt cho độ lệch chuẩn. Bây giờ, đám mây của các điểm dữ liệu sẽ được tập trung vào điểm gốc và độ dốc sẽ giống nhau cho dù bạn có hồi quy y trên x hay x trên yxyyxryxxy (nhưng lưu ý nhận xét của @DilipSarwate bên dưới).

nhập mô tả hình ảnh ở đây

Bây giờ, tại sao điều này lại quan trọng? Sử dụng hàm mất truyền thống của chúng tôi, chúng tôi đang nói rằng tất cả các lỗi chỉ nằm trong một trong các biến (viz., ). Đó là, chúng tôi đang nói rằng x được đo không có lỗi và tạo thành tập hợp các giá trị chúng tôi quan tâm, nhưng ylỗi lấy mẫuyxy. Điều này rất khác với việc nói ngược lại. Điều này rất quan trọng trong một tập phim lịch sử thú vị: Vào cuối thập niên 70 và đầu thập niên 80 ở Mỹ, vụ án được đưa ra là có sự phân biệt đối xử với phụ nữ tại nơi làm việc và điều này được hỗ trợ bằng các phân tích hồi quy cho thấy phụ nữ có hoàn cảnh bình đẳng (ví dụ , trình độ, kinh nghiệm, vv) được trả tiền, trung bình, ít hơn nam giới. Các nhà phê bình (hoặc chỉ những người cực kỳ kỹ lưỡng) lập luận rằng nếu điều này là đúng, phụ nữ được trả công bằng với đàn ông sẽ phải có trình độ cao hơn, nhưng khi điều này được kiểm tra, người ta thấy rằng mặc dù kết quả là 'đáng kể' khi đánh giá theo một cách, chúng không "đáng kể" khi được kiểm tra theo cách khác, điều này đã khiến mọi người liên quan đến một cách chóng mặt. Xem tại đây cho một bài báo nổi tiếng đã cố gắng để làm rõ vấn đề.


(Cập nhật nhiều sau) Đây là một cách khác để suy nghĩ về vấn đề này tiếp cận chủ đề thông qua các công thức thay vì trực quan:

Công thức cho độ dốc của đường hồi quy đơn giản là hệ quả của hàm mất mát đã được áp dụng. Nếu bạn đang sử dụng chức năng mất bình phương tối thiểu bình thường tiêu chuẩn (đã lưu ý ở trên), bạn có thể rút ra công thức cho độ dốc mà bạn thấy trong mỗi sách giáo khoa giới thiệu. Công thức này có thể được trình bày dưới nhiều hình thức khác nhau; một trong số đó tôi gọi là công thức 'trực quan' cho độ dốc. Hãy xem xét biểu mẫu này cho cả hai tình huống mà bạn đang suy thoái trên x , và nơi bạn đang suy thoái x trên y : y  trên  x beta 1 = cov ( x , y )yxxy Bây giờ, tôi hy vọng rõ ràng rằng những điều này sẽ không giống nhau trừ khiVar(x)bằng vớiVar(y). Nếu chênh lệchbằng nhau (ví dụ, bởi vì bạn chuẩn các biến đầu tiên), sau đó như vậy là độ lệch chuẩn, và do đó sự chênh lệch sẽ cả cũng tương đươngSD(x)SD(y). Trong trường hợp này,β1sẽ bằng Pearsonr, đó là một trong hai cách tương tự nhờnguyên tắc giao hoán: tương ứng 

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
+1 để đề cập đến việc giảm thiểu chức năng mất. Các lựa chọn thay thế cho khoảng cách dọc hoặc ngang bao gồm sử dụng khoảng cách vuông góc với đường thẳng hoặc diện tích của hình chữ nhật, mỗi đường tạo ra các đường hồi quy khác nhau.
Henry

7
yxxyxy
Dilip Sarwate

4
yxxxyx

1
Bạn có thể nói rằng trong trường hợp tương quan, khoảng cách trực giao giữa các điểm và đường thẳng đang được thu nhỏ? (Ý tôi là đường đi từ điểm đến đường "hồi quy" và đứng trực giao trên nó).
vonjd

1
Mối tương quan của Pearson không hoàn toàn phù hợp với một dòng, @vonjd. Nó chỉ ra rằng nó tương đương với độ dốc của một đường bình phương nhỏ nhất được trang bị khi dữ liệu được chuẩn hóa trước tiên. Thành phần chính thứ nhất, khi chỉ có 2 biến và dữ liệu được chuẩn hóa trước, là một dòng được trang bị để giảm thiểu khoảng cách trực giao. HTH
gung

12

Tôi sẽ minh họa câu trả lời với một số Rmã và đầu ra.

Đầu tiên, chúng tôi xây dựng một phân phối bình thường ngẫu nhiên y, với giá trị trung bình là 5 và SD là 1:

y <- rnorm(1000, mean=5, sd=1)

Tiếp theo, tôi cố tình tạo một phân phối bình thường ngẫu nhiên thứ hai x, đơn giản là gấp 5 lần giá trị của ymỗi y:

x <- y*5

Theo thiết kế, chúng tôi có mối tương quan hoàn hảo xy:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Tuy nhiên, khi chúng ta thực hiện hồi quy, chúng ta đang tìm một hàm có liên quan xydo đó, kết quả của các hệ số hồi quy phụ thuộc vào biến nào chúng ta sử dụng làm biến phụ thuộc và chúng ta sử dụng làm biến độc lập. Trong trường hợp này, chúng tôi không phù hợp với việc chặn vì chúng tôi đã thực hiện xmột chức năng ykhông có biến thể ngẫu nhiên:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Vì vậy, hồi quy cho chúng ta biết điều đó y=0.2xx=5ytất nhiên là tương đương. Hệ số tương quan chỉ đơn giản cho chúng ta thấy rằng có một sự trùng khớp chính xác về mức độ thay đổi đơn vị giữa xy, do đó (ví dụ) mức tăng 1 đơn vị yluôn tạo ra mức tăng 0,2 đơn vị x.


6

Cái nhìn sâu sắc rằng vì mối tương quan của Pearson là giống nhau cho dù chúng ta thực hiện hồi quy x với y hay y so với x là tốt, chúng ta sẽ nhận được hồi quy tuyến tính tương tự là một hồi quy tốt. Nó chỉ hơi không chính xác, và chúng ta có thể sử dụng nó để hiểu những gì đang thực sự xảy ra.

Đây là phương trình cho một dòng, đó là những gì chúng tôi đang cố gắng nhận được từ hồi quy của chúng tôi

nhập mô tả hình ảnh ở đây

Phương trình độ dốc của đường đó được điều khiển bởi mối tương quan của Pearson

nhập mô tả hình ảnh ở đây

Đây là phương trình cho mối tương quan của Pearson. Điều này giống nhau cho dù chúng ta đang hồi quy x với y hay y so với x

nhập mô tả hình ảnh ở đây

Tuy nhiên, khi chúng ta nhìn lại phương trình thứ hai của chúng ta về độ dốc, chúng ta thấy rằng mối tương quan của Pearson không phải là thuật ngữ duy nhất trong phương trình đó. Nếu chúng ta tính y theo x, chúng ta cũng có độ lệch chuẩn mẫu của y chia cho độ lệch chuẩn của mẫu là x. Nếu chúng ta tính toán hồi quy của x so với y, chúng ta sẽ cần đảo ngược hai số hạng đó.


4

Đối với các câu hỏi như thế này, rất dễ bị cuốn vào các vấn đề kỹ thuật, vì vậy tôi muốn tập trung cụ thể vào câu hỏi trong tiêu đề của câu hỏi: Sự khác biệt giữa hồi quy tuyến tính trên y với x và x với y ?

Hãy xem xét một khoảnh khắc mô hình kinh tế lượng (đơn giản hóa) từ lý thuyết vốn con người (liên kết đến một bài viết của nhà văn đoạt giải Nobel Gary Becker). Giả sử chúng ta chỉ định một mô hình có dạng sau:

wages=b0+b1 years of education+error

Bây giờ, nếu chúng ta thực hiện đảo ngược phương trình kinh tế lượng (nghĩa là thay đổi y trên x thành x trên y), để mô hình trở thành

years of education=b0+b1 wages+error

Tôi chắc rằng bạn có thể nghĩ ra nhiều ví dụ như thế này (ngoài lĩnh vực kinh tế cũng vậy), nhưng như bạn có thể thấy, việc giải thích mô hình có thể thay đổi khá đáng kể khi chúng ta chuyển từ hồi quy y trên x sang x trên y.

Vì vậy, để trả lời câu hỏi: sự khác biệt giữa hồi quy tuyến tính trên y với x và x với y là gì? , chúng ta có thể nói rằng việc giải thích phương trình hồi quy thay đổi khi chúng ta hồi quy x trên y thay vì y trên x. Chúng ta không nên bỏ qua điểm này bởi vì một mô hình có một giải thích âm thanh có thể nhanh chóng biến thành một mô hình mà ít hoặc không có ý nghĩa.


3

Có một hiện tượng rất thú vị về chủ đề này. Sau khi trao đổi x và y, mặc dù hệ số hồi quy thay đổi, nhưng mức thống kê t / thống kê F và mức ý nghĩa của hệ số không thay đổi. Điều này cũng đúng ngay cả trong hồi quy bội, trong đó chúng ta trao đổi y với một trong các biến độc lập.

Đó là do mối quan hệ tế nhị giữa hệ số tương quan F-thống kê và (một phần). Mối quan hệ đó thực sự chạm đến cốt lõi của lý thuyết mô hình tuyến tính. Có nhiều chi tiết hơn về kết luận này trong sổ ghi chép của tôi: Tại sao trao đổi y và x không có tác dụng đối với p


Bạn có thể tìm thấy chủ đề thú vị / khó hiểu sau đây: Hoán đổi X và Y trong một hồi quy có chứa một công cụ dự đoán nhóm .
gung

2
Bài viết "Tại sao trao đổi y và x không có tác dụng với p" không còn ở đây nữa. Bạn sẽ thêm nó trở lại?
JetLag

1

Mở rộng câu trả lời tuyệt vời của @ gung:

ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

 Doing regression of y given x

minbE(YbX)2

doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

Cũng cần lưu ý rằng, hai vấn đề có vẻ khác nhau có thể có cùng một giải pháp.


1
Mặc dù điều này là chính xác - và cảm ơn bạn vì những quan sát này - bạn để độc giả của mình bị treo: bạn có thể giải thích tại sao các giải pháp cho hai vấn đề tìm kiếm khác nhau này nhất thiết phải khác nhau không?
whuber

1
look

làm thế nào là dòng cuối cùng tương đương với dòng giữa? Nếu bạn nhân 1 / b ^ 2, bạn nhận được E (X - Y / b) ^ 2 chứ không phải E (X - Yb) ^ 2
Austin Shin

bb:=1/b

+1: bạn rõ ràng đã đưa ra quan điểm của mình ngay bây giờ!
whuber

0

Chà, đúng là với một hồi quy bivariate đơn giản, hệ số tương quan tuyến tính và bình phương R sẽ giống nhau cho cả hai phương trình. Nhưng các sườn sẽ là r Sy / Sx hoặc r Sx / Sy, không phải là đối ứng của nhau, trừ khi r = 1.


1
1r2=1 "
Glen_b

-7

Ý tưởng cơ bản của hồi quy có thể là 'nguyên nhân và kết quả' hoặc 'độc lập và phụ thuộc'. Thực tế thông thường về việc đặt biến độc lập trong trục X và biến phụ thuộc trong trục Y, được biểu thị bằng Y = mX + c. Độ dốc sẽ được gọi là m (X trên Y) hay (Y trên X) và hồi quy là: (X trên Y) hoặc (Y trên X). Nó được xử lý theo cả hai cách, điều này không tốt và cần được làm rõ. Người điều hành thường xuyên sử dụng Scatter Plots, để đánh giá xem Dòng mô phỏng có khớp với Dòng quan sát hay không; và sử dụng đường hồi quy là không thể tránh khỏi. ở đây không có điều khoản nguyên nhân. Đi theo sự cần thiết này, câu hỏi câm được đặt ra bởi các chủ đề. Hoặc đơn giản chỉ cần đặt, vui lòng làm rõ cách gọi phân tích hồi quy bình thường: X trên Y; hoặc Y trên X?, vượt ra ngoài câu trả lời nguyên nhân. Nó không phải là một câu trả lời cho chủ đề chính; nhưng một câu hỏi song song.


6
-1 Bên cạnh việc không mạch lạc, câu trả lời này bỏ qua ý tưởng chính nên đã giải thích một cách thận trọng trong câu trả lời hay nhất: mô hình xác suất biến đổi trong dữ liệu cho biết liệu hồi quy có ý nghĩa hay không và xác định biến nào có thể được coi là biến phụ thuộc.
whuber

Người trả lời này có thể nhắc lại một cách giải thích cho câu hỏi tiêu đề có phần không rõ ràng, về mặt ghi nhãn thông thường. Đối với một vấn đề có dạng y = mx + b, người ta thường mô tả mối quan hệ là "y được hồi quy trên x" (có) hay là "x được hồi quy trên y" (không)? Câu hỏi thuật ngữ được trả lời tại stats.stackexchange.com/questions/207425/ .
InColorado
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.