Hồi quy logistic (và nói chung hơn, GLM) KHÔNG thuộc về Machine Learning! Thay vào đó, các phương pháp này thuộc về mô hình tham số .
Cả hai mô hình tham số và thuật toán (ML) đều sử dụng dữ liệu, nhưng theo những cách khác nhau. Các mô hình thuật toán học từ dữ liệu về cách các yếu tố dự đoán ánh xạ tới dự báo, nhưng chúng không đưa ra bất kỳ giả định nào về quá trình tạo ra các quan sát (thực tế cũng không phải bất kỳ giả định nào khác). Họ cho rằng các mối quan hệ cơ bản giữa các biến đầu vào và đầu ra là phức tạp và chưa biết, và do đó, áp dụng cách tiếp cận dựa trên dữ liệu để hiểu những gì đang diễn ra, thay vì áp đặt một phương trình chính thức.
Mặt khác, tham số mô hình được quy định một cách tiên dựa trên một số kiến thức về quá trình nghiên cứu, sử dụng dữ liệu để ước tính các thông số của họ, và kiếm được nhiều giả định không thực tế mà hiếm khi giữ trong thực tế (ví dụ như tính độc lập, phương sai bằng nhau, và Phân phối bình thường của các lỗi).
Ngoài ra, các mô hình tham số (như hồi quy logistic) là các mô hình toàn cầu . Họ không thể nắm bắt các mẫu cục bộ trong dữ liệu (không giống như các phương thức ML sử dụng cây làm mô hình cơ sở của chúng, ví dụ như RF hoặc Cây được tăng cường). Xem trang giấy này 5. Như một chiến lược khắc phục, có thể sử dụng GLM cục bộ (nghĩa là không tính toán) (xem ví dụ gói locfit R).
Thông thường, khi có ít kiến thức về hiện tượng cơ bản có sẵn, tốt hơn là áp dụng cách tiếp cận dựa trên dữ liệu và sử dụng mô hình thuật toán. Ví dụ, nếu bạn sử dụng hồi quy logistic trong trường hợp tương tác giữa các biến đầu vào và đầu ra không tuyến tính, mô hình của bạn sẽ không rõ ràng và rất nhiều tín hiệu sẽ không được ghi lại. Tuy nhiên, khi quy trình được hiểu rõ, các mô hình tham số có lợi thế là cung cấp một phương trình chính thức để tóm tắt mọi thứ, đó là sức mạnh từ quan điểm lý thuyết.
Để thảo luận chi tiết hơn, hãy đọc bài viết xuất sắc này của Leo Breiman.