Một số quan niệm sai lầm phổ biến nhất về hồi quy tuyến tính là gì?


70

Tôi tò mò, đối với những bạn có nhiều kinh nghiệm hợp tác với các nhà nghiên cứu khác, một số hiểu lầm phổ biến nhất về hồi quy tuyến tính mà bạn gặp phải là gì?

Tôi nghĩ rằng có thể là một bài tập hữu ích để suy nghĩ về những quan niệm sai lầm phổ biến trước thời hạn để

  1. Dự đoán sai lầm của mọi người và có thể nói rõ thành công tại sao một số quan niệm sai lầm là không chính xác

  2. Nhận ra nếu tôi đang nuôi dưỡng một số quan niệm sai lầm bản thân mình!

Một vài trong số những cái cơ bản tôi có thể nghĩ ra:

Các biến độc lập / phụ thuộc phải được phân phối bình thường

Các biến phải được chuẩn hóa để giải thích chính xác

Bất kì thứ khác?

Tất cả các câu trả lời đều được chào đón.


5
Điều này có lẽ nên được thực hiện CW, vì nó mời một danh sách các khả năng & sẽ rất khó để nói rằng một trong những khách quan là "câu trả lời đúng".
gung - Phục hồi Monica

Nhiều người tôi biết vẫn khăng khăng thực hiện tuyến tính hóa dữ liệu của họ và để nó ở đó, ngay cả khi môi trường máy tính họ sử dụng có hỗ trợ tốt cho hồi quy phi tuyến. (Các tuyến tính hóa tất nhiên hữu ích như là điểm khởi đầu cho sự phù hợp phi tuyến tính, nhưng những người này thậm chí không nhận ra điều đó.)
JM không phải là một nhà thống kê

1
@gung: Wiki cộng đồng có còn là một thứ không? Chủ yếu là toàn mạng , CW không bao giờ thực sự cung cấp các câu hỏi trong danh sách lớn, được hỏi rộng rãi để thoát khỏi thẻ miễn phí tù nhân, hoặc cướp đi danh tiếng mà họ có thể kiếm được ngay từ đầu. Cách duy nhất bạn thậm chí có thể đặt nó vào một câu hỏi nữa là nếu bạn yêu cầu người điều hành làm điều đó.
Robert Harvey

1
Nếu Thiên Chúa đã làm cho thế giới tuyến tính, sẽ không có hồi quy phi tuyến.
Mark L. Stone

1
@RobertHarvey: Vâng, nó vẫn còn rất nhiều điều về CrossValidated (theo ý kiến của tôi, không may). Chúng tôi đã có một số cuộc thảo luận Meta sôi nổi về nó ( ví dụ như cuộc thảo luận này ), nhưng hiện trạng là tình trạng CW đang được thực thi trên tất cả các câu hỏi dựa trên ý kiến ​​hoặc danh sách lớn được xem xét về chủ đề đủ để duy trì mở.
amip nói phục hồi Monica

Câu trả lời:


38

Tiền đề sai: A có nghĩa là không có mối quan hệ chặt chẽ giữa DV và IV. β^0
Mối quan hệ chức năng phi tuyến tính rất nhiều, và dữ liệu được tạo ra bởi nhiều mối quan hệ như vậy thường sẽ tạo ra độ dốc gần như bằng 0 nếu giả định mối quan hệ phải tuyến tính hoặc thậm chí xấp xỉ tuyến tính.

Một cách liên quan, trong một tiền đề sai lầm khác, các nhà nghiên cứu thường giả định rằng, vì nhiều sách giáo khoa hồi quy giới thiệu đã dạy cho rằng "một bài kiểm tra về tính phi tuyến tính" bằng cách xây dựng một loạt các hồi quy của DV lên các mở rộng đa thức của IV (ví dụ: , theo sau là , đã theo dõi bởiY ~ beta 0 + β X X + β X 2 X 2 + ε Y ~ β 0 + β X X + β X 2 X 2 + β X 3 X 3 + εY~β0+βXX+εY~β0+βXX+βX2X2+εY~β0+βXX+βX2X2+βX3X3+ε, Vân vân.). Cũng giống như đường thẳng không thể cũng đại diện cho một mối quan hệ chức năng phi tuyến giữa DV và IV, một parabol không thể cũng đại diện theo nghĩa đen vô số mối quan hệ phi tuyến (ví dụ như xoang, cycloids, chức năng bước, các hiệu ứng bão hòa, s-đường cong vv quảng cáo vô cùng tận ). Thay vào đó, người ta có thể thực hiện một phương pháp hồi quy không giả định bất kỳ hình thức chức năng cụ thể nào (ví dụ: bộ làm mịn dòng chạy, GAM, v.v.).

Một tiền đề sai lầm thứ ba là việc tăng số lượng các tham số ước tính nhất thiết dẫn đến việc mất công suất thống kê. Điều này có thể sai khi mối quan hệ thực sự là phi tuyến tính và yêu cầu nhiều tham số để ước tính (ví dụ: hàm "thanh gãy" không chỉ yêu cầu các điều khoản chặnđộ dốc của một đường thẳng, mà còn yêu cầu điểm tại đó độ dốc thay đổibao nhiêu độ dốc thay đổi bởi ước tính cũng): phần dư của mô hình sai (ví dụ: đường thẳng) có thể tăng khá lớn (so với mối quan hệ chức năng được chỉ định đúng) dẫn đến xác suất từ ​​chối thấp hơn và khoảng tin cậy và khoảng dự đoán rộng hơn (ngoài ước tính bị sai lệch) .


4
(+1) Phân biệt: (1) Tôi không nghĩ ngay cả các văn bản giới thiệu ngụ ý rằng tất cả các đường cong là hàm đa thức, thay vào đó chúng có thể được xấp xỉ đủ trong một phạm vi nhất định bởi các hàm đa thức. Vì vậy, họ rơi vào lớp "phương pháp hồi quy không giả định bất kỳ hình thức chức năng cụ thể nào", bị chi phối bởi một "siêu tham số" chỉ định sự ngu ngốc: nhịp cho hoàng thổ, không. nút thắt cho hồi quy trên cơ sở spline, mức độ cho hồi quy trên cơ sở đa thức. (Tôi không vẫy cờ cho đa thức - ai cũng biết rằng họ có xu hướng vung vẩy ở phần cuối nhiều hơn chúng ta muốn -, ...
Scortchi - Tái lập Monica

2
... Chỉ cần cung cấp cho họ đúng hạn của họ.) (2) Một hình sin có thể phù hợp như vậy, trong khuôn khổ mô hình tuyến tính; một hiệu ứng bão hòa sử dụng mô hình phi tuyến tính (một hyperbola hình chữ nhật, nói); & c. Tất nhiên bạn không nói khác, nhưng có lẽ đáng để chỉ ra rằng nếu bạn biết có một chu kỳ, hoặc tiệm cận, áp dụng các ràng buộc đó trong mô hình của bạn sẽ hữu ích.
Scortchi - Phục hồi Monica

2
@Scortchi Tôi không thể đồng ý hơn! (Thật vậy, với một số lượng đa thức vô hạn , bất kỳ hàm nào cũng có thể được biểu diễn một cách hoàn hảo.) Đã nhắm đến sự súc tích. :)
Alexis

2
@Alexis Hãy thử xấp xỉ hàm 13 cơ sở của Conway bằng đa thức. :)
Bí mật của Solomonoff

1
Hoặc ...χQ
S. Kolassa - Tái lập Monica

22

Rất phổ biến khi cho rằng chỉ có dữ liệu bị lỗi đo lường (hoặc ít nhất, đây là lỗi duy nhất mà chúng tôi sẽ xem xét). Nhưng điều này bỏ qua khả năng - và hậu quả - lỗi trong các phép đo x . Điều này có thể đặc biệt cấp tính trong các nghiên cứu quan sát trong đó các biến x không nằm trong sự kiểm soát thực nghiệm.yxx

Sự pha loãng hồi quy hoặc suy giảm hồi quy là hiện tượng được Spearman (1904) công nhận, theo đó độ dốc hồi quy ước tính trong hồi quy tuyến tính đơn giản bị sai lệch về 0 do sự hiện diện của sai số đo trong biến độc lập. Giả sử độ dốc đúng là tích cực - ảnh hưởng của jittering các điểm tọa độ (có lẽ dễ dàng nhất quán tưởng như 'smudging' các điểm theo chiều ngang) là để render đường hồi quy ít dốc. Theo trực giác, các điểm có x lớnhiện có nhiều khả năng là do lỗi đo dương, trong khigiá trị y có khả năng phản ánh giá trị thật (không có lỗi) của x và do đó thấp hơn so với đường thẳng thực cho quan sátxxyx .x

Trong các mô hình phức tạp hơn, lỗi đo lường trong các biến có thể tạo ra các hiệu ứng phức tạp hơn đối với các ước tính tham số. Có lỗi trong các mô hình biến đưa lỗi đó vào tài khoản. Spearman đề xuất một hệ số hiệu chỉnh để làm giảm các hệ số tương quan bivariate và các yếu tố hiệu chỉnh khác đã được phát triển cho các tình huống phức tạp hơn. Tuy nhiên, việc hiệu chỉnh như vậy có thể khó khăn - đặc biệt là trong trường hợp đa biến và với sự hiện diện của các yếu tố gây nhiễu - và có thể gây tranh cãi liệu việc sửa chữa có phải là một cải tiến thực sự hay không, xem ví dụ Smith và Phillips (1996).x

Vì vậy, tôi cho rằng đây là hai quan niệm sai lầm cho giá của một - một mặt nó là một sai lầm nếu nghĩ rằng cách chúng ta viết có nghĩa là "tất cả các lỗi là trong y " và bỏ qua những chất rất thực tế khả năng sai số đo lường trong các biến độc lập. Mặt khác, có thể không thể áp dụng "sửa chữa" một cách mù quáng cho lỗi đo lường trong tất cả các tình huống như phản ứng giật đầu gối (mặc dù có thể nên thực hiện các bước để giảm sai số đo ở vị trí đầu tiên) .y= =Xβ+εy

(Tôi có lẽ cũng nên liên kết với một số mô hình biến-lỗi phổ biến khác, theo thứ tự ngày càng chung: hồi quy trực giao , hồi quy Demingtổng bình phương tối thiểu .)

Người giới thiệu


Trên lưu ý đó: đây là một lý do cho việc sử dụng kỹ thuật được gọi là "tổng bình phương nhỏ nhất" hoặc "hồi quy trực giao" (tùy thuộc vào tài liệu tham khảo bạn đang đọc); nó phức tạp hơn đáng kể so với bình phương nhỏ nhất, nhưng đáng làm nếu tất cả các điểm của bạn bị nhiễm lỗi.
JM không phải là một nhà thống kê

@JM Cảm ơn - vâng, thực tế ban đầu tôi muốn đặt một liên kết đến TLS, nhưng đã bị phân tâm bởi bài báo của Smith và Phillips!
Cá bạc

2
+1 Bổ sung tuyệt vời cho chủ đề này. Tôi thường xem xét các mô hình EIV trong công việc của mình. Tuy nhiên, ngoài sự phức tạp hoặc phụ thuộc vào kiến thức về "tỷ lệ lỗi" của họ, có một vấn đề khái niệm hơn để xem xét: Nhiều hồi quy, đặc biệt là trong việc học có giám sát hoặc dự đoán, muốn liên hệ quan sát dự đoán để quan sát kết quả. Mô hình EIV, mặt khác, cố gắng để xác định các mối quan hệ cơ bản giữa các trung bình dự đoán và có nghĩa là đáp ứng ... một câu hỏi hơi khác nhau.

2
Vì vậy, cái mà người ta gọi là "pha loãng" của hồi quy "thật" (trong bối cảnh khoa học) sẽ được gọi là "thiếu tiện ích dự đoán" hoặc đại loại như thế trong bối cảnh dự đoán.

21

p

Một vài hiểu lầm mà tôi nghĩ là cụ thể đối với hồi quy bội là:

  1. p
  2. YXXYZ1,,Z5Z6,,Z20

12
Đồ tốt. Câu trả lời này có thể hữu ích hơn nữa nếu nó giải thích tại sao hai người sai và thay vào đó nên làm gì?
DW

14

Tôi muốn nói rằng cái đầu tiên bạn liệt kê có lẽ là phổ biến nhất - và có lẽ được dạy rộng rãi nhất theo cách đó - về những điều được thấy rõ là sai, nhưng đây là một số thứ khác ít rõ ràng hơn trong một số tình huống ( cho dù họ thực sự áp dụng) nhưng có thể ảnh hưởng đến nhiều phân tích hơn, và có lẽ nghiêm trọng hơn. Chúng thường không bao giờ được đề cập khi đề tài hồi quy được giới thiệu.

  • Coi như là các mẫu ngẫu nhiên trong quần thể các quan sát quan tâm không thể gần với đại diện (huống chi là lấy mẫu ngẫu nhiên). [Một số nghiên cứu thay vào đó có thể được coi là một cái gì đó gần với các mẫu thuận tiện]

  • Với dữ liệu quan sát, chỉ cần bỏ qua các hậu quả của việc loại bỏ các trình điều khiển quan trọng của quy trình chắc chắn sẽ làm sai lệch các ước tính của các hệ số của các biến được bao gồm (trong nhiều trường hợp, thậm chí có khả năng thay đổi dấu hiệu của chúng), không cố gắng xem xét các cách xử lý với họ (cho dù không biết gì về vấn đề hoặc đơn giản là không biết rằng có thể làm được gì). [Một số lĩnh vực nghiên cứu có vấn đề này nhiều hơn những lĩnh vực khác, cho dù vì các loại dữ liệu được thu thập hoặc do mọi người trong một số lĩnh vực ứng dụng có nhiều khả năng đã được dạy về vấn đề này.]

  • Hồi quy giả (chủ yếu là với dữ liệu được thu thập theo thời gian). [Ngay cả khi mọi người biết điều đó xảy ra, có một quan niệm sai lầm phổ biến khác chỉ đơn giản là khác biệt với văn phòng phẩm được cho là đủ để tránh hoàn toàn vấn đề.]

Tất nhiên có nhiều người khác có thể đề cập đến (ví dụ như dữ liệu độc lập gần như chắc chắn sẽ có mối tương quan huyết thanh hoặc thậm chí được tích hợp có thể là phổ biến, chẳng hạn).

Bạn có thể nhận thấy rằng các nghiên cứu quan sát về dữ liệu được thu thập theo thời gian có thể bị tấn công bởi tất cả những điều này cùng một lúc ... tuy nhiên loại nghiên cứu đó rất phổ biến trong nhiều lĩnh vực nghiên cứu trong đó hồi quy là một công cụ tiêu chuẩn. Làm thế nào họ có thể xuất bản mà không cần một nhà phê bình hoặc biên tập viên nào biết về ít nhất một trong số họ và ít nhất yêu cầu một số mức độ từ chối trong các kết luận tiếp tục làm tôi lo lắng.

Thống kê có nhiều vấn đề về kết quả không thể đạt được khi xử lý các thí nghiệm được kiểm soát khá cẩn thận (khi kết hợp với các phân tích có thể không được kiểm soát cẩn thận), ngay khi bước ra ngoài giới hạn, tình hình tái sản xuất sẽ tệ đến mức nào?


6
yx

2
@Silverfish Tôi hoàn toàn đồng ý với bạn.
Mark L. Stone

@Silverfish là CW vì vậy bạn sẽ cảm thấy thoải mái hơn khi chỉnh sửa trong một bổ sung phù hợp như thế.
Glen_b

@Silverfish có một lý do tôi đã không tự thêm nó khi bạn đề cập đến nó ... Tôi nghĩ rằng nó có thể đáng để trả lời mới
Glen_b

12

Tôi có lẽ sẽ không gọi những quan niệm sai lầm này, nhưng có lẽ những điểm chung của sự nhầm lẫn / treo máy và, trong một số trường hợp, các vấn đề mà các nhà nghiên cứu có thể không nhận thức được.

  • Đa cộng đồng (bao gồm cả trường hợp có nhiều biến hơn điểm dữ liệu)
  • Sự không đồng nhất
  • Liệu các giá trị của các biến độc lập có bị nhiễu hay không
  • Làm thế nào để nhân rộng (hoặc không chia tỷ lệ) ảnh hưởng đến việc giải thích các hệ số
  • Cách xử lý dữ liệu từ nhiều đối tượng
  • Làm thế nào để đối phó với các mối tương quan nối tiếp (ví dụ: chuỗi thời gian)

Về mặt quan niệm sai lầm của sự vật:

  • y= =mộtx2+bx+cx
  • Đó là 'hồi quy' có nghĩa là bình phương nhỏ nhất hoặc hồi quy tuyến tính
  • Trọng lượng thấp / cao đó nhất thiết ngụ ý mối quan hệ yếu / mạnh với biến phụ thuộc
  • Sự phụ thuộc đó giữa các biến phụ thuộc và biến độc lập có thể được giảm xuống thành các phụ thuộc theo cặp.
  • Mức độ phù hợp cao trong tập huấn luyện ngụ ý một mô hình tốt (tức là bỏ qua việc quá mức)

7

Theo kinh nghiệm của tôi, sinh viên thường áp dụng quan điểm rằng các lỗi bình phương (hoặc hồi quy OLS) là một điều tốt vốn đã phù hợp, chính xác và tổng thể để sử dụng, hoặc thậm chí không có sự thay thế. Tôi đã thường xuyên thấy OLS được quảng cáo cùng với nhận xét rằng nó "mang lại trọng lượng lớn hơn cho những quan sát cực đoan / lệch lạc", và hầu hết thời gian ít nhất ngụ ý rằng đây là một tài sản mong muốn. Khái niệm này có thể được sửa đổi sau đó, khi việc xử lý các ngoại lệ và các phương pháp mạnh mẽ được đưa ra, nhưng tại thời điểm đó, thiệt hại đã được thực hiện. Có thể cho rằng, việc sử dụng rộng rãi các lỗi bình phương có lịch sử liên quan nhiều hơn đến sự thuận tiện toán học của chúng so với một số quy luật tự nhiên về chi phí lỗi trong thế giới thực.

Nhìn chung, sự nhấn mạnh lớn hơn có thể được đặt vào sự hiểu rằng việc lựa chọn chức năng lỗi là hơi tùy ý. Lý tưởng nhất, bất kỳ lựa chọn hình phạt nào trong thuật toán nên được hướng dẫn bởi hàm chi phí trong thế giới thực tương ứng liên quan đến lỗi tiềm ẩn (nghĩa là sử dụng khung ra quyết định). Tại sao không thiết lập nguyên tắc này trước, và sau đó xem chúng ta có thể làm tốt như thế nào?


2
Sự lựa chọn cũng phụ thuộc vào ứng dụng. OLS hữu ích cho đại số, khớp trục y nhưng ít hơn cho các ứng dụng hình học, trong đó tổng bình phương nhỏ nhất (hoặc một số hàm chi phí khác dựa trên khoảng cách trực giao) có ý nghĩa hơn.
Willie Wheeler

4

Một quan niệm sai lầm phổ biến khác là thuật ngữ lỗi (hoặc xáo trộn theo cách nói kinh tế lượng) và phần dư là như nhau.

Thuật ngữ lỗi là một biến ngẫu nhiên trong mô hình thực hoặc quá trình tạo dữ liệu và thường được coi là tuân theo một phân phối nhất định, trong khi phần dư là độ lệch của dữ liệu được quan sát từ mô hình được trang bị. Như vậy, phần dư có thể được coi là ước tính của các lỗi.


Tôi cá là mọi người sẽ quan tâm đến việc giải thích tại sao điều này lại quan trọng, hoặc trong những trường hợp nào.
rolando2

4

Quan niệm sai lầm phổ biến nhất mà tôi gặp phải là hồi quy tuyến tính giả định tính quy phạm của các lỗi. Nó không. Tính quy phạm rất hữu ích trong mối liên hệ với một số khía cạnh của hồi quy tuyến tính, ví dụ như các thuộc tính mẫu nhỏ như giới hạn tin cậy của các hệ số. Ngay cả đối với những điều này, có các giá trị tiệm cận có sẵn cho các phân phối không bình thường.

Phổ biến thứ hai là một cụm nhầm lẫn liên quan đến tính nội sinh, ví dụ như không cẩn thận với các vòng phản hồi. Nếu có một vòng phản hồi từ Y trở lại X thì đó là một vấn đề.


4

Y= =mộtX+b
X= =1mộtY-bmột

Có lẽ điều này cũng liên quan đến sự khác biệt giữa OLS và tổng thành phần chính nhỏ nhất hoặc bình phương đầu tiên.


3

Cái tôi thường thấy là một quan niệm sai lầm về khả năng áp dụng hồi quy tuyến tính trong các trường hợp sử dụng nhất định, trong thực tế.

Ví dụ: chúng ta hãy nói rằng biến mà chúng ta quan tâm là số lượng của một cái gì đó (ví dụ: khách truy cập trên trang web) hoặc tỷ lệ của một cái gì đó (ví dụ: tỷ lệ chuyển đổi). Trong các trường hợp như vậy, biến có thể được mô hình hóa tốt hơn bằng cách sử dụng các hàm liên kết như Poisson (đếm), Beta (tỷ lệ), v.v ... Vì vậy, sử dụng mô hình tổng quát với chức năng liên kết phù hợp hơn là phù hợp hơn. Nhưng chỉ vì biến không phân loại, tôi đã thấy mọi người bắt đầu bằng hồi quy tuyến tính đơn giản (link function = nhận dạng). Ngay cả khi chúng ta bỏ qua các hàm ý chính xác, các giả định mô hình hóa là một vấn đề ở đây.


2

Đây là một điều tôi nghĩ thường bị các nhà nghiên cứu bỏ qua:

  • Tương tác biến: các nhà nghiên cứu thường xem xét các betas riêng biệt của các yếu tố dự đoán riêng lẻ và thường không chỉ định các thuật ngữ tương tác. Nhưng trong thế giới thực, mọi thứ tương tác. Nếu không có đặc điểm kỹ thuật phù hợp của tất cả các điều khoản tương tác có thể, bạn không biết làm thế nào "người dự đoán" của bạn tham gia cùng nhau để tạo thành một kết quả. Và nếu bạn muốn siêng năng và chỉ định tất cả các tương tác, số lượng dự đoán sẽ bùng nổ. Từ tính toán của tôi, bạn chỉ có thể điều tra 4 biến và tương tác của chúng với 100 đối tượng. Nếu bạn thêm một biến nữa, bạn có thể vượt qua rất dễ dàng.

0

Một quan niệm sai lầm phổ biến khác là các ước tính (giá trị được trang bị) không phải là bất biến đối với các phép biến đổi, vd

đụ(y^Tôi)đụ(yTôi)^
y^Tôi= =xTôiTβ^

đụ()

tôiog()

Điều này xuất hiện mọi lúc khi bạn thực hiện chuyển đổi nhật ký dữ liệu của mình, phù hợp với hồi quy tuyến tính, sau đó lũy thừa giá trị được trang bị và mọi người đọc đó là hồi quy. Đây không phải là ý nghĩa, đây là trung vị (nếu mọi thứ thực sự được phân phối thông thường).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.