Gần đây tôi đã bắt đầu sử dụng Pareto làm mịn xác thực lấy mẫu xác thực bỏ qua một lần (PSIS-LOO), được mô tả trong các tài liệu này:
- Vehtari, A., & Gelman, A. (2015). Pareto làm mịn mẫu quan trọng. bản in sẵn arXiv ( liên kết ).
- Vehtari, A., Gelman, A., & Gabry, J. (2016). Đánh giá mô hình Bayes thực tế bằng cách sử dụng xác thực chéo một lần và WAIC. bản in sẵn arXiv ( liên kết )
Điều này thể hiện một cách tiếp cận rất hấp dẫn để đánh giá mô hình ngoài mẫu vì nó cho phép thực hiện LOO-CV với một lần chạy MCMC và nó được cho là tốt hơn so với các tiêu chí thông tin hiện có như WAIC.
PSIS-LOO có một chẩn đoán để cho bạn biết liệu xấp xỉ có đáng tin cậy hay không, cụ thể được đưa ra bởi các số mũ ước tính của các phân phối Pareto phù hợp với các đuôi của phân phối theo kinh nghiệm về mức độ quan trọng (một trọng số trên mỗi điểm dữ liệu). Nói tóm lại, nếu trọng lượng ước tính , điều tồi tệ có thể xảy ra.
Đáng buồn thay, tôi thấy rằng trong ứng dụng của phương pháp này cho vấn đề của tôi, đối với phần lớn các mô hình quan tâm, tôi thấy rằng một phần lớn của . Không có gì đáng ngạc nhiên, một số khả năng đăng nhập LOO được báo cáo khá rõ ràng là vô nghĩa (so với các bộ dữ liệu khác). Để kiểm tra lại, tôi đã thực hiện xác nhận chéo 10 lần truyền thống (và tốn thời gian), thấy rằng thực sự trong trường hợp trên, PSIS-LOO đã cho kết quả cực kỳ sai (về mặt tích cực, kết quả rất phù hợp với 10 CV gấp đôi cho các mô hình trong đó tất cả \ hat {k} _i \ ll 0.7 ). Để ghi lại, tôi đang sử dụng triển khai MATLAB của PSIS-LOO của Aki Vehtari.
Có lẽ tôi rất không may mắn khi vấn đề hiện tại và đầu tiên của tôi khi áp dụng phương pháp này là "khó khăn" đối với PSIS-LOO, nhưng tôi nghi ngờ rằng trường hợp này có thể tương đối phổ biến. Đối với các trường hợp như của tôi, giấy Vehtary, Gelman & Gabry chỉ đơn giản nói:
Ngay cả khi ước tính PSIS có phương sai hữu hạn, khi , người dùng nên xem xét lấy mẫu trực tiếp từ cho có vấn đề , sử dụng chéo xác nhận, hoặc sử dụng một mô hình mạnh mẽ hơn.p(θs|y-i)ik
Đây là những giải pháp rõ ràng nhưng không thực sự lý tưởng vì tất cả đều tốn thời gian hoặc yêu cầu bổ sung (tôi đánh giá cao rằng MCMC và đánh giá mô hình đều liên quan đến vấn đề, nhưng càng ít càng tốt).
Có phương pháp chung nào mà chúng tôi có thể áp dụng trước để thử và ngăn PSIS-LOO không thành công không? Tôi có một vài ý tưởng dự kiến, nhưng tôi tự hỏi liệu đã có một giải pháp thực nghiệm mà mọi người đang áp dụng.