Lập luận rằng tờ giấy dường như đang làm cho tôi thấy lạ.
Theo bài báo, mục tiêu của CV là để ước lượng , dự kiến thực hiện dự báo của mô hình trên dữ liệu mới, cho rằng mô hình được tập huấn về các số liệu quan sát S . Khi chúng tôi tiến hành k CV -fold, chúng tôi có được một ước tính Một trong số này. Bởi vì các phân vùng ngẫu nhiên của S vào k nếp gấp, đây là một biến ngẫu nhiên Một ~ f ( A ) với trung bình μ k và phương sai σ 2 k . Ngược lại, CV lặp lại n -lần mang lại một ước tính với cùng một giá trị trung bìnhα2SkA^SkA^∼f(A)μkσ2kn nhưng phương sai nhỏ hơn σ 2 k / n .μkσ2k/n
Rõ ràng, . Sự thiên vị này là một cái gì đó chúng ta phải chấp nhận.α2≠μk
Tuy nhiên, lỗi dự kiến sẽ lớn hơn cho nhỏ hơn n , và sẽ là lớn nhất đối với n = 1 , ít nhất là theo các giả định hợp lý về f ( A ) , ví dụ như khi một ˙ ~ N ( μ k , σ 2 k / n ) . Nói cách khác, CV lặp đi lặp lại cho phép ước tính chính xác hơn μ kE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μkvà đó là một điều tốt vì nó đưa ra ước tính chính xác hơn về .α2
Do đó, CV lặp lại hoàn toàn chính xác hơn CV không lặp lại.
Các tác giả không tranh luận với điều đó! Thay vào đó họ tuyên bố, dựa trên các mô phỏng, rằng
giảm phương sai [bằng cách lặp lại CV], trong nhiều trường hợp, không hữu ích lắm, và về cơ bản là lãng phí tài nguyên tính toán.
Điều này chỉ có nghĩa rằng trong mô phỏng của họ là khá thấp; và thực tế, cỡ mẫu thấp nhất họ sử dụng là 200 , có lẽ đủ lớn để mang lại σ 2 k nhỏ . (Sự khác biệt trong ước tính thu được với CV không lặp lại và CV lặp lại 30 lần luôn nhỏ.) Với kích thước mẫu nhỏ hơn, người ta có thể mong đợi phương sai giữa các lần lặp lại lớn hơn.σ2k200σ2k
CAVEAT: Khoảng tin cậy!
Một điểm khác mà các tác giả đang thực hiện là
báo cáo về khoảng tin cậy [trong xác nhận chéo lặp lại] là sai lệch.
Có vẻ như họ đang đề cập đến khoảng tin cậy cho giá trị trung bình trên các lần lặp lại CV. Tôi hoàn toàn đồng ý rằng đây là một điều vô nghĩa để báo cáo! CV càng được lặp lại nhiều lần, CI này sẽ càng nhỏ, nhưng không ai quan tâm đến CI xung quanh ước tính của chúng tôi là ! Chúng tôi quan tâm đến CI xung quanh ước tính của chúng tôi về α 2 .μkα2
Các tác giả cũng báo cáo các TCTD cho CV không lặp lại và tôi không hoàn toàn rõ ràng về cách thức các TCTD này được xây dựng. Tôi đoán đây là các TCTD cho các phương tiện trên các nếp gấp . Tôi sẽ lập luận rằng các TCTD này cũng khá vô nghĩa!k
Hãy xem một trong những ví dụ của họ: độ chính xác cho adult
bộ dữ liệu với thuật toán NB và cỡ mẫu 200. Họ nhận được 78,0% với CV không lặp lại, CI (72,26, 83,74), 79,0% (77,21, 80,79) với CV lặp lại 10 lần và 79,1% (78,07, 80,13) với CV lặp lại 30 lần. Tất cả các TCTD này đều vô dụng, kể cả cái đầu tiên. Ước tính tốt nhất của là 79,1%. Điều này tương ứng với 158 thành công trong số 200. Điều này mang lại khoảng tin cậy nhị thức 95% của (72.8, 84.5) - rộng hơn so với báo cáo đầu tiên. Nếu tôi muốn báo cáo một số CI, đây là báo cáo tôi sẽ báo cáo.μk
CAUPAT THÊM: phương sai của CV.
Bạn đã viết CV lặp đi lặp lại
đã trở thành một kỹ thuật phổ biến để giảm phương sai của xác nhận chéo.
Người ta phải nói rất rõ ý nghĩa của "phương sai" trong CV. CV lặp đi lặp lại làm giảm phương sai của ước tính . Lưu ý rằng trong trường hợp CV rời khỏi một lần (LOOCV), khi k = N , phương sai này bằng không. Tuy nhiên, nó thường được nói LOOCV rằng có thực sự là cao nhất phương sai của tất cả các thể k -fold CV. Xem ví dụ ở đây: Phương sai và sai lệch trong xác thực chéo: tại sao CV rời khỏi có phương sai cao hơn?μkk=Nk
Tại sao vậy? Điều này là do LOOCV có phương sai cao nhất như một ước tính của mà là việc thực hiện dự báo dự kiến của mô hình trên dữ liệu mới khi xây dựng trên một tập dữ liệu mới có cùng kích thước như S . Đây là một vấn đề hoàn toàn khác.α1S