Khi cố gắng chọn trong số các mô hình khác nhau hoặc số lượng tính năng để đưa vào, hãy nói dự đoán tôi có thể nghĩ ra hai cách tiếp cận.
- Chia dữ liệu thành tập huấn luyện và kiểm tra. Vẫn tốt hơn, sử dụng xác thực chéo bootstrapping hoặc k-Fold. Huấn luyện về tập huấn luyện mỗi lần và tính toán sai số trong tập kiểm tra. Lỗi kiểm tra lô so với số lượng tham số. Thông thường, bạn nhận được một cái gì đó như thế này:
- Tính toán khả năng của mô hình bằng cách tích hợp trên các giá trị của các tham số. tức là tính và vẽ biểu đồ này theo số lượng tham số. Sau đó chúng tôi nhận được một cái gì đó như thế này:
Vì vậy, câu hỏi của tôi là:
- Những cách tiếp cận này có phù hợp để giải quyết vấn đề này không (quyết định có bao nhiêu tham số trong mô hình của bạn hoặc chọn trong số một số mô hình)?
- Chúng có tương đương không? Chắc là không. Họ sẽ đưa ra mô hình tối ưu tương tự theo các giả định nhất định hoặc trong thực tế?
- Khác với sự khác biệt triết học thông thường của việc chỉ định kiến thức trước trong các mô hình Bayes, v.v., những ưu và nhược điểm của mỗi phương pháp là gì? Bạn sẽ chọn cái nào?
Cập nhật: Tôi cũng tìm thấy câu hỏi liên quan về việc so sánh AIC và BIC. Có vẻ như phương pháp 1 của tôi không có triệu chứng tương đương với AIC và phương pháp 2 có liên quan không có triệu chứng với BIC. Nhưng tôi cũng đọc được rằng BIC tương đương với CV rời khỏi. Điều đó có nghĩa là tối thiểu lỗi đào tạo và tối đa khả năng Bayesian tương đương trong đó LOO CV tương đương với K-Fold CV. Một bài báo có lẽ rất thú vị " Một lý thuyết tiệm cận cho lựa chọn mô hình tuyến tính " của Jun Shao liên quan đến những vấn đề này.