Có một lời giải thích trực quan tại sao đa cộng tuyến là một vấn đề trong hồi quy tuyến tính?


85

Wiki thảo luận về các vấn đề phát sinh khi đa cộng tuyến là một vấn đề trong hồi quy tuyến tính. Vấn đề cơ bản là kết quả đa cộng đồng trong các ước tính tham số không ổn định, điều này làm cho việc đánh giá tác động của các biến độc lập lên các biến phụ thuộc rất khó khăn.

Tôi hiểu các lý do kỹ thuật đằng sau các vấn đề (có thể không thể đảo ngược , v.v.) nhưng tôi đang tìm kiếm một lời giải thích trực quan hơn (có lẽ là hình học?) Cho vấn đề này.X XXXXX

Có một hình học hoặc có lẽ một số hình thức giải thích dễ hiểu khác về lý do tại sao tính đa hình là vấn đề trong bối cảnh hồi quy tuyến tính?


4
Câu hỏi thực sự tuyệt vời. Cách tốt nhất để hiểu một cái gì đó là từ nhiều hướng giải thích.
Tal Galili

1
Xem thêm số liệu liên quan và câu hỏi giải thích trực quan.stackexchange.com/q/70899/3277
ttnphns 19/12/13

Câu trả lời:


89

Hãy xem xét trường hợp đơn giản nhất trong đó được hồi quy so với và và trong đó và có mối tương quan tích cực cao. Sau đó, ảnh hưởng của trên khó có thể phân biệt với các tác động của trên vì bất kỳ sự gia tăng trong có xu hướng được gắn liền với sự gia tăng .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Một cách khác để xem xét điều này là xem xét phương trình. Nếu chúng ta viết , thì hệ số là mức tăng cho mỗi đơn vị tăng trong trong khi giữ không đổi. Nhưng trong thực tế, thường không thể giữ không đổi và mối tương quan dương giữa và có nghĩa là sự gia tăng đơn vị trong thường đi kèm với sự gia tăng cùng một lúc.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Một lời giải thích tương tự nhưng phức tạp hơn cho các dạng đa hình khác.


20
+1 Trường hợp cực kỳ bệnh lý trong đó làm nổi bật điều này hơn nữa. và sẽ không thể phân biệt được. X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 Tôi thích câu trả lời này vì một trong những câu hỏi trợ giúp phổ biến nhất là tại sao sau đó là và . Suy luận phải tính đến đầu vào thực tế. b1>0b2<0
muratoa

29

Tôi đã ăn sushi một lần và nghĩ rằng nó có thể là một minh chứng trực quan tốt cho các vấn đề điều hòa. Giả sử bạn muốn cho ai đó thấy một chiếc máy bay sử dụng hai cây gậy chạm vào căn cứ của họ.

Bạn có thể giữ các que trực giao với nhau. Tác động của bất kỳ sự run rẩy nào của bàn tay bạn trên máy bay khiến nó chao đảo một chút xung quanh những gì bạn đang hy vọng cho mọi người thấy, nhưng sau khi xem bạn một lúc, họ biết được bạn đang định trình bày chiếc máy bay nào.

Nhưng hãy nói rằng bạn mang các đầu gậy lại gần nhau hơn và xem hiệu ứng của bàn tay bạn run rẩy. Chiếc máy bay nó tạo thành sẽ ném dữ dội hơn nhiều. Khán giả của bạn sẽ phải xem lâu hơn để có được ý tưởng tốt về mặt phẳng mà bạn đang cố gắng thể hiện.


+1 Tôi nghĩ rằng điều này trực tiếp nhất trả lời câu hỏi. Bởi vì mặc dù đa hình ảnh hưởng đến việc giải thích. Tại sao nó là một vấn đề imho là sự ổn định trong ước tính.
muratoa

+1 Để đăng nhận xét này (và chỉ nhận xét này từng có trong lịch sử Stackoverflow) dưới tên người dùng Snackrifice.
stackoverflax

19

Cách tiếp cận hình học là để xem xét các ô vuông chiếu nhỏ nhất của vào không gian con kéo dài bởi .YX

Giả sử bạn có một mô hình:

E[Y|X]=β1X1+β2X2

Không gian ước tính của chúng ta là mặt phẳng được xác định bởi các vectơ và và vấn đề là tìm tọa độ tương ứng với sẽ mô tả vectơ , một hình chiếu vuông nhỏ nhất của trên mặt phẳng đó. X 2 ( β 1 , β 2 ) Y YX1X2(β1,β2)Y^Y

Bây giờ giả sử , tức là chúng là cộng tuyến. Sau đó, không gian con được xác định bởi và chỉ là một dòng và chúng ta chỉ có một mức độ tự do. Vì vậy, chúng tôi không thể xác định hai giá trị và như chúng tôi đã hỏi. X 1 X 2 β 1 β 2X1=2X2X1X2β1β2


2
Tôi đã nêu lên từ lâu nhưng đọc lại câu trả lời của bạn, nó nhắc nhở tôi rằng tôi luôn thích Câu trả lời trên máy bay cho các câu hỏi phức tạp từ Christensen ( j.mp/atRp9w ).
chl

@chl: tuyệt, chắc chắn sẽ kiểm tra rồi. :)
ars

14

Hai người đang đẩy một tảng đá lên một ngọn đồi. Bạn muốn biết làm thế nào khó khăn trong số họ đang đẩy. Giả sử bạn xem họ đẩy nhau trong mười phút và tảng đá di chuyển 10 feet. Có phải người đầu tiên đã làm tất cả công việc và người thứ hai chỉ giả nó? Hoặc ngược lại? Hay 50-50? Vì cả hai lực đều hoạt động cùng một lúc, bạn không thể tách rời sức mạnh của một trong hai lực riêng biệt. Tất cả những gì bạn có thể nói là lực kết hợp của họ là 1 feet mỗi phút.

Bây giờ hãy tưởng tượng rằng anh chàng thứ nhất tự đẩy trong một phút, sau đó chín phút với anh chàng thứ hai, và một phút cuối cùng chỉ là anh chàng thứ hai đẩy. Bây giờ bạn có thể sử dụng ước tính lực lượng trong những phút đầu tiên và phút cuối để tìm ra lực lượng của mỗi người một cách riêng biệt. Mặc dù chúng vẫn hoạt động chủ yếu cùng một lúc, nhưng thực tế là có một chút khác biệt cho phép bạn có được ước tính về lực cho mỗi.

Nếu bạn thấy mỗi người đàn ông đẩy độc lập trong mười phút, điều đó sẽ cho bạn ước tính chính xác hơn về lực lượng so với việc có sự chồng chéo lớn trong các lực lượng.

Tôi để lại như một bài tập cho người đọc để mở rộng trường hợp này cho một người đàn ông đẩy lên dốc và người kia đẩy xuống dốc (nó vẫn hoạt động).

Đa tuyến hoàn hảo ngăn bạn ước tính các lực riêng biệt; gần đa bạch cầu cung cấp cho bạn các lỗi tiêu chuẩn lớn hơn.


6

Cách tôi nghĩ về điều này thực sự là về thông tin. Giả sử mỗi và có một số thông tin về . Các tương quan hơn và là với nhau, càng có nhiều nội dung thông tin về từ và là tương tự hoặc chồng chéo, đến thời điểm đó cho hoàn hảo tương quan và , nó thực sự là cùng một nội dung thông tin. Nếu bây giờ chúng ta đặt và trong cùng một mô hình (hồi quy) để giải thích , thì mô hình sẽ cố gắng "phân bổ" thông tin mà (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) chứa khoảng cho mỗi và , theo cách hơi tùy tiện. Không có cách nào thực sự tốt để phân bổ điều này, vì bất kỳ sự phân chia thông tin nào vẫn dẫn đến việc giữ toàn bộ thông tin từ ( , ) trong mô hình (đối với các tương quan hoàn hảo , đây thực sự là một trường hợp không xác định được). Điều này dẫn đến các ước tính riêng lẻ không ổn định cho các hệ số riêng của và , mặc dù nếu bạn nhìn vào các giá trị dự đoán qua nhiều lần chạy và ước tính của vàX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, những thứ này sẽ khá ổn định.


4

Trực giác giáo dân (rất) của tôi cho điều này là mô hình OLS cần một mức "tín hiệu" nhất định trong biến X để phát hiện nó đưa ra dự đoán "tốt" cho Y. Nếu cùng một "tín hiệu" được lan truyền trên nhiều X (vì chúng có tương quan), nên không ai trong số các X tương quan có thể cung cấp đủ "bằng chứng" (ý nghĩa thống kê) rằng đó là một yếu tố dự đoán thực sự.

Các câu trả lời (tuyệt vời) trước đây làm rất tốt trong việc giải thích lý do tại sao lại như vậy.


3

Giả sử rằng hai người hợp tác và thực hiện khám phá khoa học. Thật dễ dàng để nói những đóng góp độc đáo của họ (ai đã làm gì) khi hai người hoàn toàn khác nhau (một người là lý thuyết và người kia giỏi thử nghiệm), trong khi rất khó phân biệt ảnh hưởng duy nhất của họ (hệ số trong hồi quy) khi họ cặp song sinh hành động tương tự.


2

Nếu hai biến hồi quy có mối tương quan hoàn hảo, hệ số của chúng sẽ không thể tính được; thật hữu ích để xem xét lý do tại sao họ sẽ khó diễn giải nếu chúng ta có thể tính toán chúng . Trong thực tế, điều này giải thích tại sao khó diễn giải các biến không tương quan hoàn hảo nhưng điều đó cũng không thực sự độc lập.

Giả sử rằng biến phụ thuộc của chúng ta là nguồn cung cấp cá hàng ngày ở New York và các biến độc lập của chúng ta bao gồm một biến cho dù trời có mưa vào ngày đó và một cho số lượng mồi mua vào ngày hôm đó. Điều chúng tôi không nhận ra khi chúng tôi thu thập dữ liệu của mình là mỗi khi trời mưa, ngư dân không mua mồi và mỗi khi không có, họ lại mua một lượng mồi không đổi. Vì vậy, Mồi và Mưa có mối tương quan hoàn hảo và khi chúng ta chạy hồi quy, chúng ta không thể tính được hệ số của chúng. Trên thực tế, Mồi và Mưa có lẽ không tương quan hoàn hảo, nhưng chúng tôi sẽ không muốn bao gồm cả hai như là các biến hồi quy mà không bằng cách nào đó làm sạch chúng về tính nội sinh của chúng.


1

Tôi nghĩ rằng bẫy biến giả cung cấp một khả năng hữu ích khác để minh họa tại sao đa cộng tuyến là một vấn đề. Hãy nhớ lại rằng nó phát sinh khi chúng ta có một bộ hình nộm liên tục và đầy đủ trong mô hình. Sau đó, tổng của các hình nộm cộng lại thành một, hằng số, rất đa hình.

Ví dụ, một hình nộm cho nam và một cho nữ:

yi=β0+β1Mani+β2Womani+ui

Giải thích chuẩn của là thay đổi dự kiến ​​trong phát sinh từ việc thay đổi từ 0 thành 1. Tương tự, là thay đổi dự kiến ​​trong phát sinh từ việc thay đổi từ 0 thành 1. Y M a n i β 2 Y W o m a n iβ1YManiβ2YWomani

Nhưng, sau đó được cho là gì ...? Đó là , vì vậy kết quả mong đợi cho những người không phải là đàn ông hay phụ nữ ... có thể an toàn khi nói rằng hầu như tất cả các bộ dữ liệu bạn sẽ gặp, đó không phải là một câu hỏi hữu ích để hỏi :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.