Lựa chọn mô hình gốc (?) Với CV gấp k


9

Khi sử dụng CV gấp để chọn trong số các mô hình hồi quy, tôi thường tính riêng lỗi CV cho từng mô hình, cùng với lỗi tiêu chuẩn SE và tôi chọn mô hình đơn giản nhất trong vòng 1 SE của mô hình có lỗi CV thấp nhất (1 quy tắc lỗi tiêu chuẩn, xem ví dụ ở đây ). Tuy nhiên, gần đây tôi đã được thông báo rằng theo cách này, tôi đánh giá quá cao tính biến thiên và trong trường hợp cụ thể chọn giữa hai mô hình A và B, tôi thực sự nên tiến hành theo một cách khác:

  • với mỗi nếp gấp có độ dài , hãy tính toán sự khác biệt theo chiều dọc giữa hai dự đoán mô hình. Sau đó, tính độ lệch bình phương trung bình cho nếp gấpKNK
    MSDK=i=1NK(y^Aiy^Bi)2NK
  • trung bình trên các nếp gấp như bình thường và sử dụng lỗi chênh lệch CV này (cùng với lỗi tiêu chuẩn của nó) làm công cụ ước tính cho lỗi tổng quát hóa.MSDK

Câu hỏi:

  1. Điều này có ý nghĩa gì với bạn hay không? Tôi biết có những lý do lý thuyết đằng sau việc sử dụng lỗi CV làm công cụ ước tính lỗi tổng quát hóa (tôi không biết đó là những lý do nào, nhưng tôi biết chúng tồn tại!). Tôi không biết có lý do lý thuyết nào đằng sau việc sử dụng lỗi CV "khác biệt" này không.
  2. Tôi không biết nếu điều này có thể được khái quát để so sánh của hơn hai mô hình. Tính toán sự khác biệt cho tất cả các cặp mô hình có vẻ rủi ro (nhiều so sánh?): Bạn sẽ làm gì nếu bạn có nhiều hơn hai mô hình?

EDIT: công thức của tôi hoàn toàn sai, số liệu chính xác được mô tả ở đây và nó phức tạp hơn nhiều. Chà, tôi rất vui vì đã hỏi ở đây trước khi áp dụng công thức một cách mù quáng! Tôi cảm ơn @Bay vì đã giúp tôi hiểu với câu trả lời sáng ngời của anh ấy. Các biện pháp chính xác được mô tả là khá thử nghiệm, vì vậy tôi sẽ dính vào con ngựa làm việc đáng tin cậy của tôi, lỗi CV!

Câu trả lời:


2

Các là một biện pháp kỳ lạ của lỗi tổng quát, kể từ khi thiết lập người hết thậm chí không đi vào hình ảnh. Tất cả điều này sẽ cho bạn biết là các dự đoán của mô hình tương quan với nhau như thế nào, nhưng không có gì về mức độ thực sự dự đoán điểm dữ liệu thử nghiệm.MSDK

Ví dụ, tôi có thể đưa ra một cặp dự đoán ngu ngốc:

y^A(x,θ)=1+x,1θ

y^B(x,θ):=1+x,1θ2

Trong trường hợp này, điều chỉnh xác thực chéo sẽ bảo tôi đặt càng lớn càng tốt vì điều đó sẽ làm giảm , nhưng tôi nghi ngờ những mô hình này sẽ là những dự đoán tốt.θMSDK

Tôi đã xem qua liên kết, nhưng tôi không thấy đo của bạn ở đó. Andrew Gelman là một nhà thống kê được kính trọng, vì vậy tôi nghi ngờ anh ta tán thành một cái gì đó giống như ở trên, rõ ràng là thất bại như một công cụ ước tính của lỗi tổng quát hóa. Bài viết của anh ấy và liên kết thảo luận về xác thực chéo Rời khỏi (LOO), vẫn yêu cầu so sánh với điểm dữ liệu thử nghiệm (nghĩa là được tổ chức từ đào tạo) làm điểm chuẩn. Các là một thước đo hoàn toàn "hướng nội" tìm kiếm đó sẽ không cho bạn bất cứ điều gì về lỗi thử nghiệm dự kiến (ngoại trừ có lẽ là hai mô hình có thể có lỗi tương tự ...).MSDKMSDK


Phản hồi bình luận của OP

Công thức được trình bày trong bình luận của bạn đòi hỏi một chút bối cảnh:

  1. Đây là thước đo độ chính xác của Bayes, trong đó elpdmật độ dự đoán theo chiều log được mong đợi - khá nhiều, nhưng về cơ bản, nó là tổng các giá trị dự kiến ​​của logarit của mật độ dự báo sau được đánh giá tại mỗi điểm dữ liệu theo một số dự đoán trước mật độ được ước tính bằng cách sử dụng xác nhận chéo.
  2. Biện pháp trên (elpd) được tính toán bằng cách sử dụng bỏ qua một xác thực chéo, trong đó mật độ dự đoán được lấy tại điểm bỏ qua.
  3. Công thức của họ (19) đang làm là tính toán sai số chuẩn của chênh lệch độ chính xác dự đoán (được đo bằng elpd) giữa hai mô hình. Ý tưởng là sự khác biệt trong elpd là không bình thường, do đó, lỗi tiêu chuẩn có ý nghĩa vô sinh (và có thể được sử dụng để kiểm tra xem sự khác biệt cơ bản bằng không) hay Mô hình A có lỗi dự đoán nhỏ hơn Mô hình B.

Vì vậy, có rất nhiều phần chuyển động cho biện pháp này: Bạn cần chạy thuật toán lấy mẫu MCMC để lấy điểm từ mật độ tham số sau. Sau đó, bạn cần tích hợp nó để có được mật độ dự đoán. Sau đó, bạn cần lấy các giá trị dự kiến ​​của mỗi trong số này (qua nhiều lần rút thăm). Đây là một quá trình, nhưng cuối cùng, nó được cho là có lỗi tiêu chuẩn hữu ích.

Lưu ý: Trong đoạn đầy đủ thứ ba bên dưới phương trình (19), các tác giả nói rằng cần phải nghiên cứu thêm để xác định xem phương pháp này có thực hiện tốt để so sánh mô hình hay không ... vì vậy, nó chưa được thử nghiệm tốt (thử nghiệm cao). Do đó, về cơ bản, bạn tin tưởng vào tính hữu ích của phương pháp này cho đến khi các nghiên cứu tiếp theo xác minh nó đáng tin cậy xác định mô hình tốt hơn (về mặt elpd ).


Tôi hiểu ý của bạn: rõ ràng tôi (cũng như đồng nghiệp của tôi, người đã chỉ cho tôi tờ giấy) không hiểu gì về nó. Bạn có thể giải thích cho tôi thuật ngữ mà Gelman gọi là "Lỗi tiêu chuẩn của [mô hình A & B] của họ", ? Trang 18 của bài báo được liên kết, mệnh. 5.2. Nó thực sự có ích nếu bạn có thể cung cấp một ví dụ đơn giản trong đó bạn chỉ ra cách tính thuật ngữ này. Chắc chắn có rất nhiều tôi không hiểu ở đây. se(elpd^LOOAelpd^LOOB)
DeltaIV

@DeltaIV Ok ... Tôi sẽ kiểm tra phần được tham chiếu và cố gắng giải nén công thức đó cho bạn.

1
@DeltaIV ok, tôi đã có một thay đổi để xem xét. Tôi đã mở rộng bài viết của mình. Đây dường như là một phương pháp rất thử nghiệm (và chưa được xác minh) để so sánh hai mô hình dự đoán. Tôi sẽ cẩn thận khi sử dụng nó trừ khi bạn có thể xác minh hiệu suất của nó bằng các nghiên cứu Monte Carlo của riêng bạn (nghĩa là nó có thể chọn mô hình dự đoán hơn khi bạn biết câu trả lời đúng không?).
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.