Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là gì?
Khi nào bạn sẽ sử dụng từng?
Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic là gì?
Khi nào bạn sẽ sử dụng từng?
Câu trả lời:
Hồi quy tuyến tính sử dụng phương trình tuyến tính tổng quát nơi là một biến phụ thuộc liên tục và biến độc lập là thường liên tục (nhưng cũng có thể là nhị phân, ví dụ như khi các mô hình tuyến tính được sử dụng trong một t- kiểm tra) hoặc các lĩnh vực riêng biệt khác. là một thuật ngữ cho phương sai không được giải thích bởi mô hình và thường chỉ được gọi là "lỗi". Các giá trị phụ thuộc riêng được biểu thị bởi có thể được giải quyết bằng cách sửa đổi phương trình một chút:
Hồi quy logistic là một thủ tục mô hình tuyến tính tổng quát (GLM) khác sử dụng cùng một công thức cơ bản, nhưng thay vì liên tục , nó là hồi quy cho xác suất của một kết quả phân loại. Ở dạng đơn giản nhất, điều này có nghĩa là chúng tôi chỉ xem xét một biến kết quả và hai trạng thái của biến đó - 0 hoặc 1.
Phương trình xác suất của trông như thế này:
Các biến độc lập của bạn có thể là liên tục hoặc nhị phân. Các hệ số hồi quy có thể được lũy thừa để cung cấp cho bạn sự thay đổi về tỷ lệ cược của mỗi thay đổi trong , tức là, và . được gọi là tỷ lệ cược, . Trong tiếng Anh, bạn có thể nói rằng tỷ lệ tăng theo hệ số trên mỗi đơn vị thay đổi trong .
Ví dụ: Nếu bạn muốn xem chỉ số khối cơ thể dự đoán cholesterol trong máu (một biện pháp liên tục), bạn sẽ sử dụng hồi quy tuyến tính như được mô tả ở đầu câu trả lời của tôi. Nếu bạn muốn xem làm thế nào BMI dự đoán tỷ lệ mắc bệnh tiểu đường (chẩn đoán nhị phân), bạn sẽ sử dụng hồi quy logistic.
Hồi quy tuyến tính được sử dụng để thiết lập mối quan hệ giữa các biến phụ thuộc và biến độc lập, rất hữu ích trong việc ước tính biến phụ thuộc kết quả trong trường hợp thay đổi biến độc lập. Ví dụ:
Sử dụng hồi quy tuyến tính, mối quan hệ giữa Rain (R) và doanh số ô (U) được tìm thấy là - U = 2R + 5000
Phương trình này nói rằng cứ 1mm mưa, có nhu cầu 5002 ô. Vì vậy, bằng cách sử dụng hồi quy đơn giản, bạn có thể ước tính giá trị của biến.
Mặt khác, hồi quy logistic được sử dụng để xác định xác suất của một sự kiện. Và sự kiện này được ghi lại ở định dạng nhị phân, tức là 0 hoặc 1.
Ví dụ - Tôi muốn xác định xem khách hàng có mua sản phẩm của tôi hay không. Đối với điều này, tôi sẽ chạy Hồi quy logistic trên dữ liệu (có liên quan) và biến phụ thuộc của tôi sẽ là biến nhị phân (1 = Có; 0 = Không).
Về mặt biểu diễn đồ họa, hồi quy tuyến tính đưa ra một đường thẳng làm đầu ra, một khi các giá trị được vẽ trên biểu đồ. Trong khi đó, hồi quy logistic đưa ra một đường hình chữ S
Tham khảo từ Mohit Khurana.
Sự khác biệt đã được giải quyết bởi DocBuckets và Pardis, nhưng tôi muốn thêm một cách để so sánh hiệu suất của chúng không được đề cập.
Hồi quy tuyến tính thường được giải quyết bằng cách giảm thiểu sai số bình phương nhỏ nhất của mô hình vào dữ liệu, do đó các lỗi lớn sẽ bị phạt theo phương trình bậc hai. Hồi quy logistic thì ngược lại. Sử dụng hàm mất logistic khiến các lỗi lớn bị phạt đến hằng số không có triệu chứng.
Xem xét hồi quy tuyến tính trên các kết quả {0,1} phân loại để xem tại sao đây là một vấn đề. Nếu mô hình của bạn dự đoán kết quả là 38 khi sự thật là 1, bạn chẳng mất gì cả. Hồi quy tuyến tính sẽ cố gắng giảm 38, logistic sẽ không (nhiều như vậy).