Phương pháp khả năng tối đa so với phương pháp bình phương tối thiểu


42

Sự khác biệt chính giữa ước tính khả năng tối đa (MLE) so với ước lượng bình phương nhỏ nhất (LSE) là gì?

Tại sao chúng ta không thể sử dụng MLE để dự đoán giá trị trong hồi quy tuyến tính và ngược lại?y

Bất kỳ trợ giúp về chủ đề này sẽ được đánh giá rất cao.


8
Bạn có thể sử dụng MLE trong hồi quy tuyến tính nếu bạn muốn. Điều này thậm chí có thể có ý nghĩa nếu phân phối lỗi là không bình thường và mục tiêu của bạn là có được ước tính "rất có thể" chứ không phải là ước tính tối thiểu hóa tổng bình phương.
Richard Hardy

16
Theo giả định lỗi thông thường, như thường được giả định trong hồi quy tuyến tính, MLE và LSE là như nhau!
TrynnaDoStat

1
Tìm kiếm trang web của chúng tôi cho định lý Gauss-Markov .
whuber

cảm ơn vì tất cả những hồi đáp. Bây giờ điều này có ý nghĩa. Trong khi tìm kiếm chủ đề này trên mạng, tôi đã xem qua bài viết này. Có lẽ điều này cũng có ích: radfordneal.wordpress.com/2008/08/09/ trên
evros

1
Một câu trả lời cũng được cung cấp tại stats.stackexchange.com/questions/12562/ .
whuber

Câu trả lời:


19

Tôi muốn cung cấp một câu trả lời đơn giản.

Sự khác biệt chính giữa ước tính khả năng tối đa (MLE) so với ước tính bình phương nhỏ nhất (LSE) là gì?

Như @TrynnaDoStat đã nhận xét, giảm thiểu lỗi bình phương tương đương với tối đa hóa khả năng trong trường hợp này. Như đã nói trong Wikipedia ,

Trong mô hình tuyến tính, nếu các lỗi thuộc về phân phối bình thường, các ước lượng bình phương nhỏ nhất cũng là các ước lượng khả năng tối đa.

chúng có thể được xem như nhau trong trường hợp của bạn,

Hãy để tôi chi tiết một chút. Vì chúng ta biết rằng biến phản hồi ( ) có mô hình phân phối lỗi bình thường, nên khả năng là Rõ ràng tối đa hóa L tương đương với tối thiểu hóa Đó là phương pháp bình phương nhỏ nhất.y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

nhập mô tả hình ảnh ở đây
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

Tại sao chúng ta không thể sử dụng MLE để dự đoán giá trị trong hồi quy tuyến tính và ngược lại? y

Như đã giải thích ở trên, chúng tôi thực sự (chính xác hơn là tương đương) bằng cách sử dụng MLE để dự đoán các giá trị . Và nếu biến trả lời có phân phối tùy ý thay vì phân phối bình thường, như phân phối Bernoulli hoặc bất kỳ phân số nào trong họ hàm mũ, chúng ta ánh xạ bộ dự báo tuyến tính vào phân phối biến phản ứng bằng cách sử dụng hàm liên kết (theo phân phối phản hồi), thì hàm khả năng sẽ trở thành sản phẩm của tất cả các kết quả (xác suất từ ​​0 đến 1) sau khi chuyển đổi. Chúng ta có thể coi hàm liên kết trong hồi quy tuyến tính là hàm nhận dạng (vì phản hồi đã là xác suất).y


3
Bạn có thể muốn định nghĩa "trường hợp này" rõ ràng hơn một chút vì nhìn chung, khả năng tối đa và bình phương tối thiểu không giống nhau.
Matthew Gunn

2
@MatthewGunn Vâng, tôi đã sử dụng "tương đương" khác với "giống nhau".
Lerner Zhang

Sẽ thật tuyệt nếu bạn cho chúng tôi một ví dụ trong đó mô hình tuyến tính tuân theo phân phối lỗi không bình thường và cách bạn sử dụng MLE trong trường hợp như vậy để ước tính các hệ số tốt nhất. Nếu không thể, ít nhất bạn có thể chỉ cho chúng tôi một nguồn chính xác, điều này chứng minh điều này bằng cách sử dụng các mô hình tuyến tính như hồi quy Poisson
VM_AI

12

ML là một bộ ước tính cao hơn bao gồm độ lệch tuyệt đối nhỏ nhất ( -Norm) và bình phương nhỏ nhất ( -Norm). Dưới vỏ bọc ML, các công cụ ước tính chia sẻ một loạt các thuộc tính chung như điểm phá vỡ không tồn tại (đáng buồn). Trong thực tế, bạn có thể sử dụng phương pháp ML thay thế để tối ưu hóa rất nhiều thứ, kể cả OLS miễn là bạn biết bạn đang làm gì.L1L2

L2 -Norm quay trở lại CF Gauss và khoảng 200 tuổi trong khi phương pháp ML hiện đại quay trở lại (IMHO) Huber 1964. Nhiều nhà khoa học đã quen với -Norms và phương trình của họ. Lý thuyết này được hiểu rõ và có rất nhiều bài báo được xuất bản có thể được xem là phần mở rộng hữu ích như:L2

  • đánh cắp dữ liệu
  • thông số ngẫu nhiên
  • hạn chế yếu

Các ứng dụng chuyên nghiệp không chỉ phù hợp với dữ liệu, họ kiểm tra:

  • nếu tham số là đáng kể
  • nếu tập dữ liệu của bạn có ngoại lệ
  • mà ngoại lệ có thể được chấp nhận vì nó không làm tê liệt hiệu suất
  • phép đo nào nên được loại bỏ vì nó không đóng góp vào mức độ tự do

Ngoài ra có rất nhiều thử nghiệm thống kê chuyên ngành cho các giả thuyết. Điều này không cần thiết áp dụng cho tất cả các công cụ ước tính ML hoặc ít nhất nên được nêu với một bằng chứng.

Một điểm tục tĩu khác là -Norm rất dễ thực hiện, có thể được mở rộng sang chính quy hóa Bayes hoặc các thuật toán khác như Levenberg-MarTHER.L2

Đừng quên: Hiệu suất. Không phải tất cả các trường hợp vuông nhỏ nhất như Gauss-Markov tạo ra các phương trình bình thường xác định dương đối xứng . Do đó, tôi sử dụng một thư viện riêng cho mỗi -Norm. Có thể thực hiện tối ưu hóa đặc biệt cho trường hợp nhất định này.Xβ=L+r(XTX)1L2

Hãy hỏi để biết chi tiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.