Có nên sử dụng xác nhận chéo nhiều lần để đánh giá các mô hình dự đoán?


16

Tôi đã xem qua bài viết năm 2012 này của Gitte Vanwinckelen và Hendrik Blockeel khi đặt câu hỏi về tiện ích của việc xác thực chéo nhiều lần, đã trở thành một kỹ thuật phổ biến để giảm phương sai của xác thực chéo.

Các tác giả đã chứng minh rằng mặc dù việc xác thực chéo lặp đi lặp lại không làm giảm phương sai của các dự đoán mô hình, vì cùng một bộ dữ liệu mẫu đang được lấy lại giá trị trung bình của các ước tính xác thực chéo được ghép lại hội tụ đến một ước tính sai lệch về độ chính xác dự đoán thực và do đó không hữu ích.

Có nên sử dụng xác nhận chéo nhiều lần bất chấp những hạn chế này?


6
Theo kinh nghiệm của tôi, xác nhận chéo (lặp đi lặp lại hay không) không đưa ra ước tính rất chính xác về độ chính xác dự đoán. Nhưng nó rất hữu ích để so sánh hiệu suất tiên đoán của các mô hình khác nhau. Đó là một cách tốt để lựa chọn giữa các mô hình nhưng không phải là cách tốt để ước tính hiệu suất của một mô hình.
Flounderer

@Flounderer Đó là một điểm tốt. Giải thích của tôi về bài viết là chúng ta không thể so sánh có ý nghĩa các mô hình dựa trên xác thực chéo lặp lại so với xác thực chéo không lặp lại. Bạn đang cố gắng loại bỏ một lượng thông tin không hợp lý ra khỏi dữ liệu. Hay là không chính xác?
RobertF

Câu trả lời:


11

Lập luận rằng tờ giấy dường như đang làm cho tôi thấy lạ.

Theo bài báo, mục tiêu của CV là để ước lượng , dự kiến thực hiện dự báo của mô hình trên dữ liệu mới, cho rằng mô hình được tập huấn về các số liệu quan sát S . Khi chúng tôi tiến hành k CV -fold, chúng tôi có được một ước tính Một trong số này. Bởi vì các phân vùng ngẫu nhiên của S vào k nếp gấp, đây là một biến ngẫu nhiên Một ~ f ( A ) với trung bình μ k và phương sai σ 2 k . Ngược lại, CV lặp lại n -lần mang lại một ước tính với cùng một giá trị trung bìnhα2SkA^SkA^f(A)μkσk2n nhưng phương sai nhỏ hơn σ 2 k / n .μkσk2/n

Rõ ràng, . Sự thiên vị này là một cái gì đó chúng ta phải chấp nhận.α2μk

Tuy nhiên, lỗi dự kiến sẽ lớn hơn cho nhỏ hơn n , và sẽ là lớn nhất đối với n = 1 , ít nhất là theo các giả định hợp lý về f ( A ) , ví dụ như khi một ˙ ~ N ( μ k , σ 2 k / n ) . Nói cách khác, CV lặp đi lặp lại cho phép ước tính chính xác hơn μ kE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkvà đó là một điều tốt vì nó đưa ra ước tính chính xác hơn về .α2

Do đó, CV lặp lại hoàn toàn chính xác hơn CV không lặp lại.

Các tác giả không tranh luận với điều đó! Thay vào đó họ tuyên bố, dựa trên các mô phỏng, rằng

giảm phương sai [bằng cách lặp lại CV], trong nhiều trường hợp, không hữu ích lắm, và về cơ bản là lãng phí tài nguyên tính toán.

Điều này chỉ có nghĩa rằng trong mô phỏng của họ là khá thấp; và thực tế, cỡ mẫu thấp nhất họ sử dụng là 200 , có lẽ đủ lớn để mang lại σ 2 k nhỏ . (Sự khác biệt trong ước tính thu được với CV không lặp lại và CV lặp lại 30 lần luôn nhỏ.) Với kích thước mẫu nhỏ hơn, người ta có thể mong đợi phương sai giữa các lần lặp lại lớn hơn.σk2200σk2

CAVEAT: Khoảng tin cậy!

Một điểm khác mà các tác giả đang thực hiện là

báo cáo về khoảng tin cậy [trong xác nhận chéo lặp lại] là sai lệch.

Có vẻ như họ đang đề cập đến khoảng tin cậy cho giá trị trung bình trên các lần lặp lại CV. Tôi hoàn toàn đồng ý rằng đây là một điều vô nghĩa để báo cáo! CV càng được lặp lại nhiều lần, CI này sẽ càng nhỏ, nhưng không ai quan tâm đến CI xung quanh ước tính của chúng tôi là ! Chúng tôi quan tâm đến CI xung quanh ước tính của chúng tôi về α 2 .μkα2

Các tác giả cũng báo cáo các TCTD cho CV không lặp lại và tôi không hoàn toàn rõ ràng về cách thức các TCTD này được xây dựng. Tôi đoán đây là các TCTD cho các phương tiện trên các nếp gấp . Tôi sẽ lập luận rằng các TCTD này cũng khá vô nghĩa!k

Hãy xem một trong những ví dụ của họ: độ chính xác cho adultbộ dữ liệu với thuật toán NB và cỡ mẫu 200. Họ nhận được 78,0% với CV không lặp lại, CI (72,26, 83,74), 79,0% (77,21, 80,79) với CV lặp lại 10 lần và 79,1% (78,07, 80,13) với CV lặp lại 30 lần. Tất cả các TCTD này đều vô dụng, kể cả cái đầu tiên. Ước tính tốt nhất của là 79,1%. Điều này tương ứng với 158 thành công trong số 200. Điều này mang lại khoảng tin cậy nhị thức 95% của (72.8, 84.5) - rộng hơn so với báo cáo đầu tiên. Nếu tôi muốn báo cáo một số CI, đây là báo cáo tôi sẽ báo cáo.μk

CAUPAT THÊM: phương sai của CV.

Bạn đã viết CV lặp đi lặp lại

đã trở thành một kỹ thuật phổ biến để giảm phương sai của xác nhận chéo.

Người ta phải nói rất rõ ý nghĩa của "phương sai" trong CV. CV lặp đi lặp lại làm giảm phương sai của ước tính . Lưu ý rằng trong trường hợp CV rời khỏi một lần (LOOCV), khi k = N , phương sai này bằng không. Tuy nhiên, nó thường được nói LOOCV rằng có thực sự là cao nhất phương sai của tất cả các thể k -fold CV. Xem ví dụ ở đây: Phương sai và sai lệch trong xác thực chéo: tại sao CV rời khỏi có phương sai cao hơn?μkk=Nk

Tại sao vậy? Điều này là do LOOCV có phương sai cao nhất như một ước tính của mà là việc thực hiện dự báo dự kiến của mô hình trên dữ liệu mới khi xây dựng trên một tập dữ liệu mới có cùng kích thước như S . Đây là một vấn đề hoàn toàn khác.α1S


1
Tôi hy vọng @cbeleites sẽ chú ý chủ đề này và bình luận ở đây hoặc để lại câu trả lời của riêng cô ấy: Tôi biết cô ấy (hoặc đã) sử dụng CV lặp đi lặp lại rất nhiều và tôi nghĩ ủng hộ việc tính toán thay đổi lặp đi lặp lại như một số biện pháp ổn định mô hình. Nhưng tôi không nghĩ cô ấy sẽ tính toán CI nhiều lần.
amip nói phục hồi Monica

1
Cảm ơn lời giải thích rõ ràng của bài báo. Vì vậy, để tóm tắt vị trí của bạn, khi bạn nói "Nói cách khác, CV lặp lại cho phép ước tính chính xác hơn và đó là một điều tốt vì nó đưa ra ước tính chính xác hơn về α 2 " bạn hỗ trợ sử dụng CV lặp lại như một phương tiện để so sánh các mô hình với các số đo chính xác hơn μ k (ngay cả khi không phải là thước đo chính xác hơn của α 2 ). Bỏ qua các CV CV và thay vào đó tập trung vào việc so sánh trung bình μ k s cho các mô hình khác nhau. μkα2μkα2μk
RobertF

1
@RobertF: Tôi đã nói (theo bài báo V & B) về việc ước tính hiệu suất mô hình. Luận điểm của tôi là CV lặp lại chính xác hơn CV không lặp lại và tôi nghĩ nó không chắc chắn (V & R lập luận rằng sự khác biệt về độ chính xác có xu hướng không quá quan trọng trong thực tế). So sánh hai mô hình khó khăn hơn nhiều, vì giả sử bạn chạy CV và nhận 70% cho một mô hình và 71% cho một mô hình khác. Đó có phải là một sự khác biệt "đáng kể"? Vâng, đó là một vấn đề khó khăn mà không có câu trả lời chắc chắn. Và nó độc lập với vấn đề lặp đi lặp lại / không lặp lại.
amip nói phục hồi Monica


1
σk
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.