Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là gì?


122

Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là gì?

Khi nào bạn sẽ sử dụng từng?


28
Trong mô hình hồi quy tuyến tính, biến phụ thuộc được coi là liên tục, trong khi đó trong hồi quy logistic, nó là phân loại, nghĩa là rời rạc. Trong ứng dụng, cái trước được sử dụng trong cài đặt hồi quy trong khi cái sau được sử dụng để phân loại nhị phân hoặc phân loại nhiều lớp (trong đó nó được gọi là hồi quy logistic đa thức). y
Pardis

Mặc dù được viết trong một ngữ cảnh khác, nhưng nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Sự khác biệt giữa mô hình logit và probit , chứa nhiều thông tin về những gì xảy ra trong hồi quy logistic có thể giúp bạn hiểu rõ hơn về những điều này.
gung

2
Tất cả các câu trả lời trước đều đúng, nhưng có những lý do bạn có thể ủng hộ mô hình hồi quy tuyến tính ngay cả khi kết quả của bạn là phân đôi. Tôi đã viết về những lý do này ở đây: Statisticshorizons.com/linear-vs-logistic
Paul von Hippel

Câu trả lời:


111

Hồi quy tuyến tính sử dụng phương trình tuyến tính tổng quát nơi là một biến phụ thuộc liên tục và biến độc lập là thường liên tục (nhưng cũng có thể là nhị phân, ví dụ như khi các mô hình tuyến tính được sử dụng trong một t- kiểm tra) hoặc các lĩnh vực riêng biệt khác. là một thuật ngữ cho phương sai không được giải thích bởi mô hình và thường chỉ được gọi là "lỗi". Các giá trị phụ thuộc riêng được biểu thị bởi có thể được giải quyết bằng cách sửa đổi phương trình một chút:Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Hồi quy logistic là một thủ tục mô hình tuyến tính tổng quát (GLM) khác sử dụng cùng một công thức cơ bản, nhưng thay vì liên tục , nó là hồi quy cho xác suất của một kết quả phân loại. Ở dạng đơn giản nhất, điều này có nghĩa là chúng tôi chỉ xem xét một biến kết quả và hai trạng thái của biến đó - 0 hoặc 1.Y

Phương trình xác suất của trông như thế này: Y=1

P(Y=1)=11+e(b0+(biXi))

Các biến độc lập của bạn có thể là liên tục hoặc nhị phân. Các hệ số hồi quy có thể được lũy thừa để cung cấp cho bạn sự thay đổi về tỷ lệ cược của mỗi thay đổi trong , tức là, và . được gọi là tỷ lệ cược, . Trong tiếng Anh, bạn có thể nói rằng tỷ lệ tăng theo hệ số trên mỗi đơn vị thay đổi trong .XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

Ví dụ: Nếu bạn muốn xem chỉ số khối cơ thể dự đoán cholesterol trong máu (một biện pháp liên tục), bạn sẽ sử dụng hồi quy tuyến tính như được mô tả ở đầu câu trả lời của tôi. Nếu bạn muốn xem làm thế nào BMI dự đoán tỷ lệ mắc bệnh tiểu đường (chẩn đoán nhị phân), bạn sẽ sử dụng hồi quy logistic.


1
Đây có vẻ là một câu trả lời hay, nhưng bạn có thể giải thích cho điều gì và - đặc biệt - tại sao bạn đưa chúng vào trong các bản tóm tắt? (Dù sao cái gì cũng được tóm tắt?)ϵi
whuber

Theo tôi Bill, anh ta có nghĩa là viết nghĩa là (viết tắt tiếng Latin nghĩa là) chứ không phải là ei
Michael Chernick

1
Nhưng i trong tổng kết của số mũ không nên ở đó. Có vẻ như thuật ngữ tiếng ồn trong mô hình đã vô tình được mang theo ở đó. Tổng hợp duy nhất phải trên bis đại diện cho các hệ số p cho các hiệp phương sai p.
Michael Chernick

9
Có lỗi trong biểu thức của bạn cho . Bạn nên có không phải Tính ngẫu nhiên trong mô hình hồi quy logistic xuất phát từ thực tế rằng đây là các thử nghiệm bernoulli, không phải do lỗi trong xác suất thành công (đó là cách xảy ra bạn đã viết nó). P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Macro

3
Hồi quy logistic @samthebrand không phải là nhị phân mỗi se. Nó có thể được sử dụng để mô hình hóa dữ liệu với phản hồi nhị phân thông qua các xác suất nằm trong khoảng từ 0 đến 1. Việc không biết xấu hổ cắm bài đăng trên blog của tôi về điều này sẽ giúp bạn giải tỏa sự nhầm lẫn.
Ben

34

Hồi quy tuyến tính được sử dụng để thiết lập mối quan hệ giữa các biến phụ thuộc và biến độc lập, rất hữu ích trong việc ước tính biến phụ thuộc kết quả trong trường hợp thay đổi biến độc lập. Ví dụ:

Sử dụng hồi quy tuyến tính, mối quan hệ giữa Rain (R) và doanh số ô (U) được tìm thấy là - U = 2R + 5000

Phương trình này nói rằng cứ 1mm mưa, có nhu cầu 5002 ô. Vì vậy, bằng cách sử dụng hồi quy đơn giản, bạn có thể ước tính giá trị của biến.

Mặt khác, hồi quy logistic được sử dụng để xác định xác suất của một sự kiện. Và sự kiện này được ghi lại ở định dạng nhị phân, tức là 0 hoặc 1.

Ví dụ - Tôi muốn xác định xem khách hàng có mua sản phẩm của tôi hay không. Đối với điều này, tôi sẽ chạy Hồi quy logistic trên dữ liệu (có liên quan) và biến phụ thuộc của tôi sẽ là biến nhị phân (1 = Có; 0 = Không).

Về mặt biểu diễn đồ họa, hồi quy tuyến tính đưa ra một đường thẳng làm đầu ra, một khi các giá trị được vẽ trên biểu đồ. Trong khi đó, hồi quy logistic đưa ra một đường hình chữ S

Tham khảo từ Mohit Khurana.


8
Re: "Hồi quy tuyến tính được sử dụng để thiết lập mối quan hệ giữa các biến phụ thuộc và biến phụ thuộc" - điều này cũng đúng với hồi quy logistic - chỉ là biến phụ thuộc là nhị phân.
Macro

3
Hồi quy logistic không chỉ để dự đoán một sự kiện nhị phân ( lớp). Nó có thể được khái quát thành các lớp (hồi quy logistic đa thức)2k
tgy

27

Sự khác biệt đã được giải quyết bởi DocBuckets và Pardis, nhưng tôi muốn thêm một cách để so sánh hiệu suất của chúng không được đề cập.

Hồi quy tuyến tính thường được giải quyết bằng cách giảm thiểu sai số bình phương nhỏ nhất của mô hình vào dữ liệu, do đó các lỗi lớn sẽ bị phạt theo phương trình bậc hai. Hồi quy logistic thì ngược lại. Sử dụng hàm mất logistic khiến các lỗi lớn bị phạt đến hằng số không có triệu chứng.

Xem xét hồi quy tuyến tính trên các kết quả {0,1} phân loại để xem tại sao đây là một vấn đề. Nếu mô hình của bạn dự đoán kết quả là 38 khi sự thật là 1, bạn chẳng mất gì cả. Hồi quy tuyến tính sẽ cố gắng giảm 38, logistic sẽ không (nhiều như vậy).


WRE sau đó, những tình huống / trường hợp đang bị trừng phạt trong một logistic, tức là, trong những trường hợp chúng ta sẽ có một sự phù hợp nghèo?
MSIS

1
Ngược lại: bất cứ khi nào độ lệch lớn hơn so với sự phù hợp thực sự sẽ phát sinh kết quả tồi tệ hơn. Ví dụ, hồi quy logistic rất tốt trong việc giữ cho bạn đánh một bảng phi tiêu, nhưng không thể làm cho một bullseye trông đẹp. Hoặc, tương tự, nghĩ rằng một lần bỏ lỡ gần như của bảng cũng giống như gắn bó với hàng xóm của bạn.
J. Abrahamson

Câu trả lời chính xác. Đã có nghiên cứu nào thực hiện nó ảnh hưởng đến hiệu suất của mô hình đến mức nào chưa? Ý tôi là nếu hồi quy tuyến tính được sử dụng để dự đoán đáp ứng = {0,1} thay vì hồi quy logistic.
Tagar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.