Tôi muốn cung cấp một câu trả lời đơn giản.
Sự khác biệt chính giữa ước tính khả năng tối đa (MLE) so với ước tính bình phương nhỏ nhất (LSE) là gì?
Như @TrynnaDoStat đã nhận xét, giảm thiểu lỗi bình phương tương đương với tối đa hóa khả năng trong trường hợp này. Như đã nói trong Wikipedia ,
Trong mô hình tuyến tính, nếu các lỗi thuộc về phân phối bình thường, các ước lượng bình phương nhỏ nhất cũng là các ước lượng khả năng tối đa.
chúng có thể được xem như nhau trong trường hợp của bạn,
Hãy để tôi chi tiết một chút. Vì chúng ta biết rằng biến phản hồi ( )
có mô hình phân phối lỗi bình thường,
nên khả năng là
Rõ ràng tối đa hóa L tương đương với tối thiểu hóa
Đó là phương pháp bình phương nhỏ nhất.yYi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2))
∑i=1n(Yi−λ1Xi−λ2)2
Tại sao chúng ta không thể sử dụng MLE để dự đoán giá trị trong hồi quy tuyến tính và ngược lại? y
Như đã giải thích ở trên, chúng tôi thực sự (chính xác hơn là tương đương) bằng cách sử dụng MLE để dự đoán các giá trị . Và nếu biến trả lời có phân phối tùy ý thay vì phân phối bình thường, như phân phối Bernoulli hoặc bất kỳ phân số nào trong họ hàm mũ, chúng ta ánh xạ bộ dự báo tuyến tính vào phân phối biến phản ứng bằng cách sử dụng hàm liên kết (theo phân phối phản hồi), thì hàm khả năng sẽ trở thành sản phẩm của tất cả các kết quả (xác suất từ 0 đến 1) sau khi chuyển đổi. Chúng ta có thể coi hàm liên kết trong hồi quy tuyến tính là hàm nhận dạng (vì phản hồi đã là xác suất).y