Sự khác biệt giữa hồi quy tuyến tính trong mô hình thống kê và học máy

Tôi đã hiểu rằng sự khác biệt chính giữa mô hình thống kê và mô hình thống kê là, "giả định" loại phân phối dữ liệu nhất định sau đó dựa trên mô hình mô hình khác nhau cũng như kết quả thống kê mà chúng tôi thu được (ví dụ: giá trị p, thống kê F , t-stat, v.v.). Nhưng trong trường hợp học máy, chúng tôi không bận tâm về việc phân phối dữ liệu và quan tâm nhiều hơn đến dự đoán.

Khi tôi đang trải qua Mllib doc, tôi đã tìm thấy hồi quy tuyến tính, chúng tôi đang chỉ định phân phối. Nhưng Mllib là một gói học máy. Vì vậy, tôi có những câu hỏi sau:

1) Sự hiểu biết của tôi giữa ML và phương pháp thống kê là sai?

2) Spark có đang sử dụng mô hình thống kê cho hồi quy tuyến tính và GLM không?

Cảm ơn!

Lưu ý: Có rất nhiều bài viết tuyệt vời liên quan đến sự khác biệt giữa phương pháp học máy và phương pháp thống kê. Nhưng điều này liên quan nhiều hơn đến tia lửa MLLIB.

machine-learning spark-mllib

— Beta
nguồn

Thật không may, sự phân đôi mà bạn mô tả là không hợp lệ. Các mô hình ML (hầu như luôn luôn) xác định phân phối đáp ứng. Ví dụ, thư viện máy tăng cường độ dốc cực kỳ phổ biến XGBoost xác định các mục tiêu học tập cụ thể (ví dụ: tuyến tính, logistic, Poisson, Cox, v.v.).
Việc thực hiện hồi quy tuyến tính và GLMs trong MLlib Spark là chắc chắn dựa trên lý thuyết thống kê tiêu chuẩn cho các mô hình tuyến tính. Ví dụ, trích dẫn trực tiếp từ pyspark/mllib/regression.py's LinearRegressionWithSGDnhận xét nào: Train a linear regression model using Stochastic Gradient Descent (SGD). This solves the least squares regression formulation f(weights) = 1/(2n) ||A weights - y||^2 which is the mean squared error.ví dụ này là một thuật toán hồi quy tuyến tính tiêu chuẩn cho Gaussian phản ứng. Việc triển khai thuật toán cụ thể có thể được tối ưu hóa sao cho nó hoạt động với các dữ liệu rất lớn (ví dụ như chủ đề tuyệt vời này về " Tại sao sử dụng độ dốc giảm dần cho hồi quy tuyến tính, khi có sẵn giải pháp toán học dạng đóng? ") Nhưng lý thuyết đằng sau một thuật toán là hoàn toàn giống nhau.

— usεr11852
nguồn

Tôi đồng ý với người dùng11852. Tôi muốn thêm rằng một phân phối phản hồi cũng cần thiết trong cách tiếp cận ML vì tùy thuộc vào việc bạn chọn hàm mất / chi phí.

— fabiob

Chỉ tò mò thôi. Nếu các phương thức ML cũng tuân theo phân phối, tại sao chúng không cung cấp giá trị p, t-statiscs, v.v? Ngoài fct mà các nhà quảng cáo ML quan tâm đến dự đoán hơn là chi tiết ý nghĩa thống kê của mô hình. Cảm ơn!

— Beta

@Beta: Khá nhiều bạn đã trả lời câu hỏi phụ của bạn. Các học viên thường tập trung vào dự đoán và không cần / muốn cô lập ảnh hưởng của một biến đặc biệt như điều trị / can thiệp. Ngoài ra, trong hầu hết các trường hợp, kích thước mẫu được coi là rất lớn nên chúng tôi (có thể hiểu sai) mong muốn mọi thứ đều có ý nghĩa thực sự (một số).

— usεr11852