Trong cuốn sách PRML của Đức cha, ông nói rằng, quá mức là một vấn đề với Ước tính khả năng tối đa (MLE) và Bayesian có thể tránh được.
Nhưng tôi nghĩ, quá mức là một vấn đề nhiều hơn về lựa chọn mô hình, chứ không phải về phương pháp được sử dụng để làm ước lượng tham số. Đó là, giả sử tôi có một tập dữ liệu , được tạo thông qua f ( x ) = s i n ( x ) , , bây giờ tôi có thể chọn các mô hình khác nhau H i để phù hợp với dữ liệu và tìm ramô hìnhnào là tốt nhất. Và các mô hình đang được xem xét là các đa thức với các đơn hàng khác nhau, H 1 là đơn hàng 1, H 2 là đơn hàng 2, H 3 là đơn hàng 9.
Bây giờ tôi cố gắng khớp dữ liệu với mỗi trong số 3 mô hình, mỗi mô hình có các tham số của nó, ký hiệu là w i cho H i .
Sử dụng ML, tôi sẽ có ước tính điểm của các tham số mô hình và H 1 quá đơn giản và sẽ luôn điều chỉnh dữ liệu, trong khi H 3 quá phức tạp và sẽ phù hợp với dữ liệu, chỉ H 2 sẽ phù hợp với dữ liệu.
Câu hỏi của tôi là
1) Mô hình sẽ phù hợp với dữ liệu, nhưng tôi không nghĩ đó là vấn đề của ML, mà là vấn đề của mô hình. Bởi vì, sử dụng ML cho H 1 , H 2 không dẫn đến tình trạng thừa. Tôi có đúng không
2) So với Bayesian, ML có một số nhược điểm, vì nó chỉ đưa ra ước tính điểm của các tham số mô hình , và nó quá tự tin. Trong khi Bayesian không chỉ dựa vào giá trị có thể xảy ra nhất của tham số, nhưng tất cả các giá trị có thể có của các tham số được cung cấp cho dữ liệu quan sát D , phải không?
3) Tại sao Bayes có thể tránh hoặc giảm quá mức? Theo tôi hiểu, chúng ta có thể sử dụng Bayesian để so sánh mô hình, nghĩa là, với dữ liệu , chúng ta có thể tìm ra khả năng cận biên (hoặc bằng chứng mô hình) cho mỗi mô hình đang xem xét, và sau đó chọn một mô hình có khả năng cận biên cao nhất, phải ? Nếu vậy, tại sao vậy?