Ngăn chặn Pareto làm mịn việc lấy mẫu quan trọng (PSIS-LOO) khỏi thất bại

Gần đây tôi đã bắt đầu sử dụng Pareto làm mịn xác thực lấy mẫu xác thực bỏ qua một lần (PSIS-LOO), được mô tả trong các tài liệu này:

Vehtari, A., & Gelman, A. (2015). Pareto làm mịn mẫu quan trọng. bản in sẵn arXiv ( liên kết ).
Vehtari, A., Gelman, A., & Gabry, J. (2016). Đánh giá mô hình Bayes thực tế bằng cách sử dụng xác thực chéo một lần và WAIC. bản in sẵn arXiv ( liên kết )

Điều này thể hiện một cách tiếp cận rất hấp dẫn để đánh giá mô hình ngoài mẫu vì nó cho phép thực hiện LOO-CV với một lần chạy MCMC và nó được cho là tốt hơn so với các tiêu chí thông tin hiện có như WAIC.

PSIS-LOO có một chẩn đoán để cho bạn biết liệu xấp xỉ có đáng tin cậy hay không, cụ thể được đưa ra bởi các số mũ ước tính của các phân phối Pareto phù hợp với các đuôi của phân phối theo kinh nghiệm về mức độ quan trọng (một trọng số trên mỗi điểm dữ liệu). Nói tóm lại, nếu trọng lượng ước tính , điều tồi tệ có thể xảy ra. $\hat{k}_i$ $\hat{k}_i \gtrsim 0.7$

Đáng buồn thay, tôi thấy rằng trong ứng dụng của phương pháp này cho vấn đề của tôi, đối với phần lớn các mô hình quan tâm, tôi thấy rằng một phần lớn của $\hat{k}_i \gg 0.7$ . Không có gì đáng ngạc nhiên, một số khả năng đăng nhập LOO được báo cáo khá rõ ràng là vô nghĩa (so với các bộ dữ liệu khác). Để kiểm tra lại, tôi đã thực hiện xác nhận chéo 10 lần truyền thống (và tốn thời gian), thấy rằng thực sự trong trường hợp trên, PSIS-LOO đã cho kết quả cực kỳ sai (về mặt tích cực, kết quả rất phù hợp với 10 CV cho các mô hình trong đó tất cả $\hat{k}_i \ll 0.7$ ). Để ghi lại, tôi đang sử dụng triển khai MATLAB của PSIS-LOO của Aki Vehtari.

Có lẽ tôi rất không may mắn khi vấn đề hiện tại và đầu tiên của tôi khi áp dụng phương pháp này là "khó khăn" đối với PSIS-LOO, nhưng tôi nghi ngờ rằng trường hợp này có thể tương đối phổ biến. Đối với các trường hợp như của tôi, giấy Vehtary, Gelman & Gabry chỉ đơn giản nói:

Ngay cả khi ước tính PSIS có phương sai hữu hạn, khi , người dùng nên xem xét lấy mẫu trực tiếp từ cho có vấn đề , sử dụng chéo xác nhận, hoặc sử dụng một mô hình mạnh mẽ hơn. $\hat{k} > 0.7$ $p(\theta^s |y_{−i})$ $i$ $k$

Đây là những giải pháp rõ ràng nhưng không thực sự lý tưởng vì tất cả đều tốn thời gian hoặc yêu cầu bổ sung (tôi đánh giá cao rằng MCMC và đánh giá mô hình đều liên quan đến vấn đề, nhưng càng ít càng tốt).

Có phương pháp chung nào mà chúng tôi có thể áp dụng trước để thử và ngăn PSIS-LOO không thành công không? Tôi có một vài ý tưởng dự kiến, nhưng tôi tự hỏi liệu đã có một giải pháp thực nghiệm mà mọi người đang áp dụng.

— lacerbi
nguồn

Đối với hồ sơ, tôi đã đăng một câu hỏi tương tự với danh sách gửi thư của người dùng Stan , mà bạn có thể tìm thấy ở đây . Tôi đã được trả lời bởi một trong những tác giả của bài báo PSIS-LOO ban đầu và bởi những người đóng góp khác của Stan. Điều gì sau đây là tóm tắt cá nhân của tôi.

Câu trả lời ngắn gọn là không có phương pháp chung nào được biết đến để ngăn PSIS-LOO không thành công. Nếu PSIS-LOO không thành công, thường là do mô hình có vấn đề và việc sửa nó nhất thiết phải để lại cho người dùng.

Cụ thể, lý do tại sao PSIS-LOO có thể thất bại thường là do một hoặc nhiều phân phối LOO bị dịch chuyển và / hoặc rộng hơn so với toàn bộ sau, có thể do các quan sát có ảnh hưởng và phân phối lấy mẫu quan trọng sụp đổ xuống một hoặc một vài điểm.

Tôi đã nghĩ rằng bạn có thể thử áp dụng một số hình thức tiếp cận ủ sau song song để giải quyết vấn đề này. Ý tưởng không hẳn là sai, nhưng nó đã được chỉ ra cho tôi rằng:

quá trình ủ sau sách giáo khoa vẫn cần rất nhiều trường hợp tùy theo từng trường hợp để tìm mức nhiệt độ phù hợp, vì không có cách nào rõ ràng cũng như không biết để làm điều đó (tình cờ, vì lý do này Stan không bao gồm quá trình ủ song song);
nếu bạn sử dụng nhiều hơn hai mức nhiệt độ (vì có thể cần phải có một cách tiếp cận mạnh mẽ), thì phương pháp chi phí tính toán cuối cùng sẽ được xác thực chéo K hoặc khi chạy MCMC trên các bản phân phối LOO có vấn đề.

Nói tóm lại, nếu PSIS-LOO thất bại, dường như khó có được một phương pháp mạnh mẽ và chung chung như các bản vá đơn giản khác; đó là lý do Vehtari, Gelman & Gabry đề xuất những phương pháp đó theo trích dẫn mà tôi đã đăng trong câu hỏi ban đầu của mình.

— lacerbi
nguồn