Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là gì?


241

Khi chúng ta phải dự đoán giá trị của một kết quả phân loại (hoặc rời rạc), chúng ta sử dụng hồi quy logistic . Tôi tin rằng chúng ta sử dụng hồi quy tuyến tính để dự đoán giá trị của một kết quả được đưa ra cho các giá trị đầu vào.

Vậy thì, sự khác biệt giữa hai phương pháp là gì?

Câu trả lời:


269
  • Đầu ra hồi quy tuyến tính như xác suất

    Thật hấp dẫn khi sử dụng đầu ra hồi quy tuyến tính làm xác suất nhưng đó là một sai lầm vì đầu ra có thể âm và lớn hơn 1 trong khi xác suất thì không thể. Vì hồi quy thực sự có thể tạo ra các xác suất có thể nhỏ hơn 0 hoặc thậm chí lớn hơn 1, hồi quy logistic đã được đưa ra.

    Nguồn: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    nhập mô tả hình ảnh ở đây

  • Kết quả

    Trong hồi quy tuyến tính, kết quả (biến phụ thuộc) là liên tục. Nó có thể có bất kỳ một trong vô số các giá trị có thể.

    Trong hồi quy logistic, kết quả (biến phụ thuộc) chỉ có một số lượng giới hạn các giá trị có thể.

  • Biến phụ thuộc

    Hồi quy logistic được sử dụng khi biến phản ứng có tính chất phân loại. Chẳng hạn, có / không, đúng / sai, đỏ / xanh / xanh dương, 1/2/3/4, v.v.

    Hồi quy tuyến tính được sử dụng khi biến phản ứng của bạn liên tục. Chẳng hạn, cân nặng, chiều cao, số giờ, v.v.

  • Phương trình

    Hồi quy tuyến tính cho một phương trình có dạng Y = mX + C, có nghĩa là phương trình với độ 1.

    Tuy nhiên, hồi quy logistic đưa ra một phương trình có dạng Y = e X + e -X

  • Giải thích hệ số

    Trong hồi quy tuyến tính, việc giải thích hệ số của các biến độc lập khá đơn giản (nghĩa là giữ tất cả các biến khác không đổi, với một đơn vị tăng trong biến này, biến phụ thuộc được dự kiến ​​sẽ tăng / giảm theo xxx).

    Tuy nhiên, trong hồi quy logistic, phụ thuộc vào gia đình (nhị thức, Poisson, v.v.) và liên kết (log, logit, nghịch đảo log, v.v.) bạn sử dụng, cách hiểu là khác nhau.

  • Kỹ thuật giảm thiểu lỗi

    Hồi quy tuyến tính sử dụng phương pháp bình phương tối thiểu thông thường để giảm thiểu các lỗi và đạt đến mức phù hợp nhất có thể, trong khi hồi quy logistic sử dụng phương pháp khả năng tối đa để đi đến giải pháp.

    Hồi quy tuyến tính thường được giải quyết bằng cách giảm thiểu sai số bình phương nhỏ nhất của mô hình vào dữ liệu, do đó các lỗi lớn bị phạt theo phương trình bậc hai.

    Hồi quy logistic thì ngược lại. Sử dụng hàm mất logistic khiến các lỗi lớn bị phạt đến một hằng số không có triệu chứng.

    Xem xét hồi quy tuyến tính trên các kết quả {0, 1} phân loại để xem tại sao đây là một vấn đề. Nếu mô hình của bạn dự đoán kết quả là 38, khi sự thật là 1, bạn chẳng mất gì cả. Hồi quy tuyến tính sẽ cố gắng giảm 38, logistic sẽ không (nhiều) 2 .


Có sự khác biệt giữa Y = e ^ X / 1 + e ^ -X và Y = e ^ X + e ^ -X không?
MMS

3
e ^ X / 1? bất cứ điều gì chia cho 1 là như nhau. do đó không có sự khác biệt. Tôi chắc chắn rằng bạn có ý định hỏi một cái gì đó khác.
tàu vũ trụ

Tôi biết đây là một chủ đề cũ nhưng đưa ra tuyên bố của bạn "Hồi quy logistic được sử dụng khi biến trả lời có tính chất phân loại. Ví dụ, có / không, đúng / sai, đỏ / xanh / xanh, 1/2/3/4, Vân vân. "; sự khác biệt giữa điều này và phân loại sau đó là gì?
kingJulian

@kingJulian Hồi quy logistic thực sự được sử dụng để phân loại. Hãy xem điều này , bạn có thể thấy nó hữu ích như tôi có
QuantumHoneybees

@kingJulian: Hồi quy logistic là một kỹ thuật phân loại và phân loại là viết tắt của một số thuật toán cố gắng dự đoán một vài kết quả.
dùng3676305

204

Trong hồi quy tuyến tính, kết quả (biến phụ thuộc) là liên tục. Nó có thể có bất kỳ một trong vô số các giá trị có thể. Trong hồi quy logistic, kết quả (biến phụ thuộc) chỉ có một số lượng giới hạn các giá trị có thể.

Chẳng hạn, nếu X chứa diện tích tính bằng feet vuông của ngôi nhà và Y chứa giá bán tương ứng của những ngôi nhà đó, bạn có thể sử dụng hồi quy tuyến tính để dự đoán giá bán là một hàm của kích thước nhà. Mặc dù giá bán có thể không thực sự là bất kỳ , có rất nhiều giá trị có thể mà mô hình hồi quy tuyến tính sẽ được chọn.

Thay vào đó, nếu bạn muốn dự đoán, dựa trên kích thước, liệu một ngôi nhà sẽ bán được hơn 200 nghìn đô la, bạn sẽ sử dụng hồi quy logistic. Các kết quả đầu ra có thể là Có, ngôi nhà sẽ được bán với giá hơn 200 nghìn đô la hoặc Không, ngôi nhà sẽ không.


3
Trong ví dụ hồi quy logistic của ung thư, tôi có thể vẽ một đường ngang y = .5, (rõ ràng là đi qua y = .5), mười nếu bất kỳ điểm nào nằm trên đường này y = .5 => + ve, khác -ve . Vậy thì tại sao tôi cần một hồi quy logistic. Tôi chỉ cố gắng để hiểu các trường hợp giải thích tốt nhất để sử dụng hồi quy logistic?
vinita

@vinita: ở đây hoặc đây là một ví dụ đơn giản cho việc không sử dụng hồi quy tuyến tính và sau đó giữ lại, cho các vấn đề phân loại.
Ankush Shah

3
hồi quy logistic là phân loại tốt hơn trên dữ liệu phân loại so với hồi quy tuyến tính. Nó sử dụng hàm lỗi entropy chéo thay vì bình phương tối thiểu. Do đó, nó không nhạy cảm với các ngoại lệ và cũng không trừng phạt các điểm dữ liệu "quá chính xác" như bình phương nhỏ nhất.
Marcel_marcel1991

15

Chỉ cần thêm vào các câu trả lời trước.

Hồi quy tuyến tính

Có nghĩa là để giải quyết vấn đề dự đoán / ước tính giá trị đầu ra cho một phần tử X đã cho (giả sử f (x)). Kết quả của dự đoán là một hàm cotinuity trong đó các giá trị có thể dương hoặc âm. Trong trường hợp này, bạn thường có một tập dữ liệu đầu vào với rất nhiều ví dụ và giá trị đầu ra cho mỗi một trong số chúng. Mục đích là để có thể phù hợp với một mô hình để tập dữ liệu này, do đó bạn có thể dự đoán rằng sản lượng cho khác nhau mới / yếu tố không bao giờ nhìn thấy. Sau đây là ví dụ cổ điển về việc khớp một đường thẳng với tập hợp các điểm, nhưng trong hồi quy tuyến tính nói chung có thể được sử dụng để phù hợp với các mô hình phức tạp hơn (sử dụng độ đa thức cao hơn):

nhập mô tả hình ảnh ở đây Giải quyết vấn đề

Hồi quy Linea có thể được giải quyết theo hai cách khác nhau:

  1. Phương trình bình thường (cách trực tiếp để giải bài toán)
  2. Gradient giảm dần (phương pháp lặp)

Hồi quy logistic

Có nghĩa là để giải quyết các vấn đề phân loại trong đó đưa ra một yếu tố bạn phải phân loại giống nhau trong N loại. Ví dụ điển hình là ví dụ được đưa ra một thư để phân loại thư đó có phải là thư rác hay không, hoặc được cung cấp một phương tiện tìm thấy để phân loại nó thuộc về (xe hơi, xe tải, xe tải, v.v.). Về cơ bản, đầu ra là một tập hợp hữu hạn các giá trị giải mã.

Giải quyết vấn đề

Các vấn đề hồi quy logistic chỉ có thể được giải quyết bằng cách sử dụng Gradient gốc. Công thức nói chung rất giống với hồi quy tuyến tính, sự khác biệt duy nhất là việc sử dụng hàm giả thuyết khác nhau. Trong hồi quy tuyến tính, giả thuyết có dạng:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

trong đó theta là mô hình mà chúng tôi đang cố gắng khớp và [1, x_1, x_2, ..] là vectơ đầu vào. Trong hồi quy logistic, hàm giả thuyết là khác nhau:

g(x) = 1 / (1 + e^-x)

nhập mô tả hình ảnh ở đây

Hàm này có một thuộc tính đẹp, về cơ bản, nó ánh xạ bất kỳ giá trị nào đến phạm vi [0,1] phù hợp để xử lý các khả năng chống đỡ trong phân loại. Ví dụ, trong trường hợp phân loại nhị phân g (X) có thể được hiểu là xác suất thuộc về lớp dương. Trong trường hợp này thông thường, bạn có các lớp khác nhau được phân tách bằng một ranh giới quyết định , về cơ bản là một đường cong quyết định sự tách biệt giữa các lớp khác nhau. Sau đây là một ví dụ về tập dữ liệu được phân tách trong hai lớp.

nhập mô tả hình ảnh ở đây


7

Cả hai đều khá giống nhau trong việc giải quyết giải pháp, nhưng như những người khác đã nói, một (Hồi quy logistic) là để dự đoán một loại "phù hợp" (Y / N hoặc 1/0), và cái còn lại (Hồi quy tuyến tính) là để dự đoán một giá trị.

Vì vậy, nếu bạn muốn dự đoán nếu bạn bị ung thư Y / N (hoặc xác suất) - hãy sử dụng logistic. Nếu bạn muốn biết bạn sẽ sống được bao nhiêu năm - hãy sử dụng Hồi quy tuyến tính!


6

Sự khác biệt cơ bản:

Hồi quy tuyến tính về cơ bản là một mô hình hồi quy có nghĩa là nó sẽ cung cấp một đầu ra không kín đáo / liên tục của hàm. Vì vậy, cách tiếp cận này mang lại giá trị. Ví dụ: cho x là gì f (x)

Ví dụ, được cung cấp một tập huấn gồm các yếu tố khác nhau và giá của một tài sản sau khi đào tạo, chúng tôi có thể cung cấp các yếu tố cần thiết để xác định giá của tài sản là gì.

Hồi quy logistic về cơ bản là một thuật toán phân loại nhị phân, có nghĩa là ở đây sẽ có đầu ra có giá trị kín đáo cho hàm. Ví dụ: với một x cho trước, nếu f (x)> ngưỡng phân loại nó thành 1 khác thì phân loại thành 0.

Ví dụ, được cung cấp một tập hợp kích thước khối u não như dữ liệu đào tạo, chúng ta có thể sử dụng kích thước làm đầu vào để xác định xem đó là khối u lành tính hay ác tính. Do đó, ở đây đầu ra là kín đáo 0 hoặc 1.

* ở đây chức năng cơ bản là chức năng giả thuyết


5

Nói một cách đơn giản, hồi quy tuyến tính là một thuật toán hồi quy, vượt trội hơn một giá trị liên tục và vô hạn có thể có; hồi quy logistic được coi là một thuật toán phân loại nhị phân, đưa ra 'xác suất' của đầu vào thuộc về nhãn (0 hoặc 1).


Cảm ơn trời, tôi đọc ghi chú của bạn về xác suất. Đã chuẩn bị viết tắt logistic như là một phân loại nhị phân.
HashRocketSyntax

4

Hồi quy có nghĩa là biến liên tục, Tuyến tính có nghĩa là có mối quan hệ tuyến tính giữa y và x. Ex = Bạn đang cố gắng dự đoán mức lương từ không có năm kinh nghiệm. Vì vậy, ở đây tiền lương là biến độc lập (y) và số năm kinh nghiệm là biến phụ thuộc (x). y = b0 + b1 * x1 Hồi quy tuyến tính Chúng tôi đang cố gắng tìm giá trị tối ưu của hằng số b0 và b1 sẽ cung cấp cho chúng tôi dòng phù hợp nhất cho dữ liệu quan sát của bạn. Đây là một phương trình của dòng cho giá trị liên tục từ x = 0 đến giá trị rất lớn. Dòng này được gọi là mô hình hồi quy tuyến tính.

Hồi quy logistic là loại kỹ thuật phân loại. Dnt bị đánh lừa bởi hồi quy hạn. Ở đây chúng tôi dự đoán liệu y = 0 hay 1.

Ở đây trước tiên chúng ta cần tìm p (y = 1) (khả năng cung cấp của y = 1) cho x từ formuale bên dưới.

thăm dò

Tính bẩm sinh p có liên quan đến y bởi dưới formuale

S

Ex = chúng ta có thể phân loại khối u có hơn 50% khả năng bị ung thư là 1 và khối u có ít hơn 50% khả năng bị ung thư là 0. 5

Ở đây điểm đỏ sẽ được dự đoán là 0 trong khi điểm xanh sẽ được dự đoán là 1.


1

Tóm lại: Hồi quy tuyến tính cho đầu ra liên tục. tức là bất kỳ giá trị nào giữa một phạm vi các giá trị. Hồi quy logistic cho đầu ra riêng biệt. tức là Có / Không, loại đầu ra 0/1.


1

Không thể đồng ý nhiều hơn với các ý kiến ​​trên. Trên đó, có một số khác biệt như

Trong hồi quy tuyến tính, phần dư được giả sử là được phân phối bình thường. Trong hồi quy logistic, phần dư cần phải độc lập nhưng không được phân phối bình thường.

Hồi quy tuyến tính giả định rằng một sự thay đổi liên tục trong giá trị của biến giải thích dẫn đến thay đổi liên tục trong biến trả lời. Giả định này không giữ nếu giá trị của biến trả lời đại diện cho một xác suất (trong Hồi quy logistic)

GLM (mô hình tuyến tính tổng quát) không giả định mối quan hệ tuyến tính giữa các biến phụ thuộc và biến độc lập. Tuy nhiên, nó giả định mối quan hệ tuyến tính giữa chức năng liên kết và các biến độc lập trong mô hình logit.


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

Nói một cách đơn giản, nếu trong mô hình hồi quy tuyến tính, nhiều trường hợp thử nghiệm sẽ đến rất xa ngưỡng (say = 0,5) để dự đoán y = 1 và y = 0. Sau đó, trong trường hợp đó, giả thuyết sẽ thay đổi và trở nên tồi tệ hơn. Do đó, mô hình hồi quy tuyến tính không được sử dụng cho bài toán phân loại.

Một vấn đề khác là nếu phân loại là y = 0 và y = 1, h (x) có thể> 1 hoặc <0. Vì vậy, chúng tôi sử dụng hồi quy Logistic là 0 <= h (x) <= 1.


0

Hồi quy logistic được sử dụng để dự đoán các đầu ra phân loại như Có / Không, Thấp / Trung bình / Cao, v.v ... Về cơ bản, bạn có 2 loại hồi quy logistic Hồi quy nhị phân (Có / Không, Chấp thuận / Không chấp thuận) hoặc Hồi quy logistic đa lớp (Thấp / Trung bình / Cao, chữ số từ 0-9, v.v.)

Mặt khác, hồi quy tuyến tính là nếu biến phụ thuộc của bạn (y) liên tục. y = mx + c là một phương trình hồi quy tuyến tính đơn giản (m = dốc và c là giao thoa y). Hồi quy đa tuyến có nhiều hơn 1 biến độc lập (x1, x2, x3 ... vv)


0

Trong hồi quy tuyến tính, kết quả là liên tục trong khi trong hồi quy logistic, kết quả chỉ có một số lượng hạn chế các giá trị có thể (rời rạc).

ví dụ: Trong một kịch bản, giá trị đã cho của x là kích thước của một ô tính theo feet vuông, sau đó dự đoán y tức là tốc độ của ô đi theo hồi quy tuyến tính.

Thay vào đó, nếu bạn muốn dự đoán, dựa trên kích thước, liệu lô đất sẽ bán được hơn 300000 R, bạn sẽ sử dụng hồi quy logistic. Các đầu ra có thể là Có, lô sẽ bán với giá hơn 300000 R, hoặc Không.


0

Trong trường hợp hồi quy tuyến tính, kết quả là liên tục trong khi trong trường hợp kết quả hồi quy logistic là rời rạc (không liên tục)

Để thực hiện hồi quy tuyến tính, chúng tôi yêu cầu một mối quan hệ tuyến tính giữa các biến phụ thuộc và độc lập. Nhưng để thực hiện hồi quy Logistic, chúng tôi không yêu cầu mối quan hệ tuyến tính giữa các biến phụ thuộc và biến độc lập.

Hồi quy tuyến tính là tất cả về việc khớp một đường thẳng trong dữ liệu trong khi Hồi quy logistic là về việc khớp một đường cong với dữ liệu.

Hồi quy tuyến tính là một thuật toán hồi quy cho Machine Learning trong khi Logistic Regression là một thuật toán phân loại cho học máy.

Hồi quy tuyến tính giả định phân phối gaussian (hoặc bình thường) của biến phụ thuộc. Hồi quy logistic giả định phân phối nhị thức của biến phụ thuộc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.