Đúng là các giả định của hồi quy tuyến tính không thực tế. Tuy nhiên, điều này đúng với tất cả các mô hình thống kê. "Tất cả các mô hình đều sai, nhưng một số là hữu ích."
Tôi đoán bạn đang có ấn tượng rằng không có lý do gì để sử dụng hồi quy tuyến tính khi bạn có thể sử dụng một mô hình phức tạp hơn. Điều này không đúng, bởi vì nói chung, các mô hình phức tạp hơn dễ bị quá mức và chúng sử dụng nhiều tài nguyên tính toán hơn, điều này rất quan trọng nếu, ví dụ, bạn đang cố gắng thống kê trên bộ xử lý nhúng hoặc máy chủ web. Các mô hình đơn giản hơn cũng dễ hiểu và dễ hiểu hơn; ngược lại, các mô hình học máy phức tạp như mạng lưới thần kinh có xu hướng kết thúc dưới dạng hộp đen, ít nhiều.
Ngay cả khi hồi quy tuyến tính một ngày nào đó không còn thực sự hữu ích (điều dường như cực kỳ khó xảy ra trong tương lai gần), nó vẫn sẽ quan trọng về mặt lý thuyết, bởi vì các mô hình phức tạp hơn có xu hướng xây dựng trên hồi quy tuyến tính làm nền tảng. Ví dụ, để hiểu hồi quy logistic hiệu ứng hỗn hợp thường xuyên, trước tiên bạn cần hiểu hồi quy tuyến tính đơn giản cũ.
Điều này không có nghĩa là các mô hình phức tạp hơn, mới hơn và sáng hơn không hữu ích hoặc quan trọng. Nhiều người trong số họ là. Nhưng các mô hình đơn giản hơn được áp dụng rộng rãi hơn và do đó quan trọng hơn, và rõ ràng có ý nghĩa để trình bày trước nếu bạn sẽ trình bày một loạt các mô hình. Có rất nhiều phân tích dữ liệu xấu được thực hiện trong những ngày này bởi những người tự gọi mình là "nhà khoa học dữ liệu" hoặc một cái gì đó nhưng thậm chí không biết những thứ nền tảng, giống như khoảng tin cậy thực sự là gì. Đừng là một thống kê!