Bayesian vs MLE, vấn đề quá mức


12

Trong cuốn sách PRML của Đức cha, ông nói rằng, quá mức là một vấn đề với Ước tính khả năng tối đa (MLE) và Bayesian có thể tránh được.

Nhưng tôi nghĩ, quá mức là một vấn đề nhiều hơn về lựa chọn mô hình, chứ không phải về phương pháp được sử dụng để làm ước lượng tham số. Đó là, giả sử tôi có một tập dữ liệu , được tạo thông qua f ( x ) = s i n ( x ) ,D , bây giờ tôi có thể chọn các mô hình khác nhau H i để phù hợp với dữ liệu và tìm ramô hìnhnào là tốt nhất. Và các mô hình đang được xem xét là các đa thức với các đơn hàng khác nhau, H 1 là đơn hàng 1, H 2 là đơn hàng 2, H 3 là đơn hàng 9.

f(x)=sin(x),x[0,1]
HiH1H2H3

Bây giờ tôi cố gắng khớp dữ liệu với mỗi trong số 3 mô hình, mỗi mô hình có các tham số của nó, ký hiệu là w i cho H i .DwiHi

Sử dụng ML, tôi sẽ có ước tính điểm của các tham số mô hình H 1 quá đơn giản và sẽ luôn điều chỉnh dữ liệu, trong khi H 3 quá phức tạp và sẽ phù hợp với dữ liệu, chỉ H 2 sẽ phù hợp với dữ liệu.wH1H3H2

Câu hỏi của tôi là

1) Mô hình sẽ phù hợp với dữ liệu, nhưng tôi không nghĩ đó là vấn đề của ML, mà là vấn đề của mô hình. Bởi vì, sử dụng ML cho H 1 , H 2 không dẫn đến tình trạng thừa. Tôi có đúng khôngH3H1,H2

2) So với Bayesian, ML có một số nhược điểm, vì nó chỉ đưa ra ước tính điểm của các tham số mô hình , và nó quá tự tin. Trong khi Bayesian không chỉ dựa vào giá trị có thể xảy ra nhất của tham số, nhưng tất cả các giá trị có thể có của các tham số được cung cấp cho dữ liệu quan sát D , phải không?wD

3) Tại sao Bayes có thể tránh hoặc giảm quá mức? Theo tôi hiểu, chúng ta có thể sử dụng Bayesian để so sánh mô hình, nghĩa là, với dữ liệu , chúng ta có thể tìm ra khả năng cận biên (hoặc bằng chứng mô hình) cho mỗi mô hình đang xem xét, và sau đó chọn một mô hình có khả năng cận biên cao nhất, phải ? Nếu vậy, tại sao vậy?D

Câu trả lời:


19

Tối ưu hóa là gốc rễ của mọi tội lỗi trong thống kê. Bất cứ khi nào bạn đưa ra lựa chọn về mô hình 1 của mình bằng cách tối ưu hóa một số tiêu chí phù hợp được đánh giá trên một mẫu dữ liệu hữu hạn, bạn sẽ có nguy cơ phù hợp với tiêu chí quá mức, tức là giảm số liệu thống kê vượt quá điểm cải thiện hiệu suất tổng quát hóa và giảm thay vào đó đạt được bằng cách khai thác các đặc thù của mẫu dữ liệu, ví dụ như nhiễu). Lý do phương pháp Bayes hoạt động tốt hơn là vì bạn không tối ưu hóa bất cứ điều gì, mà thay vào đó là lề (tích hợp) trên tất cả các lựa chọn có thể. Vấn đề sau đó nằm ở sự lựa chọn niềm tin trước đó liên quan đến mô hình, vì vậy một vấn đề đã biến mất, nhưng một vấn đề khác xuất hiện ở vị trí của nó.1


1

GC Cawley và NLC Talbot, Quá phù hợp trong lựa chọn mô hình và sai lệch lựa chọn tiếp theo trong đánh giá hiệu suất, Tạp chí Nghiên cứu Máy học, 2010. Nghiên cứu, tập. 11, trang 2079-2107, tháng 7 năm 2010 ( pdf )


+1, cảm ơn bạn rất nhiều, tôi sẽ đọc bài viết của bạn và xem liệu tôi có câu hỏi nào nữa không, ;-)

1
Chỉ cần lưu ý ở đây rằng tối ưu hóa thường có thể được coi là tích hợp xấp xỉ - phương pháp Laplace là một ví dụ về điều này. Tối ưu hóa thường thất bại khi nó không phải là một xấp xỉ tốt để tích hợp - do đó tại sao REML thường tốt hơn ML.
xác suất

@probabilityislogic, tôi không chắc là tôi hiểu, ML hơi giống MAP, không có tích hợp nào được thực hiện. Sử dụng xấp xỉ Laplace (theo cách tôi đã thấy nó được sử dụng) là tối ưu hóa theo nghĩa là bạn tối ưu hóa một xấp xỉ cho chức năng bạn muốn tích hợp và tích hợp thay vào đó, nhưng vẫn có sự tích hợp đang diễn ra.
Dikran Marsupial

1
@dikran marsupial - Có lẽ một cách tốt hơn để giải thích đó là sự tích hợp thường được xấp xỉ bằng cách ước tính một tham số bằng ML và ràng buộc tham số đó bằng MLE của nó. Phép tính gần đúng Laplace cung cấp "hệ số hiệu chỉnh" cho trực giác này - giống như cách mà REML thực hiện.
xác suất

@probabilityislogic cảm ơn bạn đã trả lời, tôi sẽ suy nghĩ kỹ!
Dikran Marsupial

7

Như một phản hồi chung, nếu bạn đang sử dụng mô hình hồi quy loại "bình phương nhỏ nhất" thì thực sự không có nhiều khác biệt giữa các vịnh và ML, trừ khi bạn sử dụng thông tin trước cho các tham số hồi quy. Đáp lại chi tiết cụ thể:

H9H1

x

3) Cách tiếp cận Bayes có thể tránh việc quá mức chỉ dành cho các linh mục thích hợp. Điều này hoạt động theo cách tương tự như các điều khoản phạt bạn thấy trong một số thuật toán phù hợp. Ví dụ: hình phạt L2 = bình thường trước, hình phạt L1 = laplace trước.


H9

H

H9

4

H1H2H3

2H1

l1


Một giả thuyết đơn giản (ví dụ h1, h2) với các mẫu đào tạo không đủ sẽ là một ví dụ về sự phù hợp (đối với cv) và không phù hợp do sai lệch mô hình trên một vài ví dụ đào tạo được đưa ra.
yekta
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.