Câu trả lời ngắn gọn: nó không sai cũng không mới.
Chúng ta đã thảo luận về sơ đồ xác nhận này dưới tên "xác thực" ≈ 15 trước đây khi chuẩn bị một bài báo *, nhưng cuối cùng không bao giờ thực sự đề cập đến nó vì chúng ta không thấy nó được sử dụng trong thực tế.
Wikipedia đề cập đến cùng một sơ đồ xác nhận như xác thực lấy mẫu ngẫu nhiên lặp lại hoặc xác thực chéo Monte Carlo
Từ quan điểm lý thuyết, khái niệm này được chúng tôi quan tâm bởi vì
- đó là một cách giải thích khác cho cùng một số thường được gọi là giữ (chỉ mô hình ước tính được sử dụng là khác nhau: ước tính giữ lại được sử dụng làm ước tính hiệu suất cho chính xác mô hình được kiểm tra, xác thực này hoặc xác thực Monte Carlo xử lý (các) mô hình được thử nghiệm như (các) mô hình thay thế và diễn giải cùng một số với ước tính hiệu suất cho một mô hình được xây dựng trên toàn bộ tập dữ liệu - vì nó thường được thực hiện với xác thực chéo hoặc ước tính xác thực ngoài bootstrap)
- và nó ở đâu đó ở giữa
- các kỹ thuật xác thực chéo phổ biến hơn (lấy mẫu lại bằng thay thế, diễn giải như ước tính cho toàn bộ mô hình dữ liệu),
- giữ (xem ở trên, cùng một số tính toán + số, thường không có N lần lặp / lặp lại, mặc dù và cách hiểu khác nhau)
- và out-of-bootstrap (N lặp đi lặp lại / lặp lại là điển hình cho out-bootstrap, nhưng tôi chưa bao giờ thấy điều này được áp dụng cho việc giữ chỗ và điều này [không may] hiếm khi được thực hiện với xác nhận chéo).
* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, MG Phương sai giảm trong việc ước tính lỗi phân loại bằng cách sử dụng bộ dữ liệu thưa thớt, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
Lỗi "thiết lập xác thực" cho N = 1 được ẩn trong hình. 6 (nghĩa là độ lệch + phương sai của nó có thể được cấu trúc lại từ dữ liệu đã cho nhưng không được cung cấp rõ ràng.)
nhưng có vẻ không tối ưu về phương sai. Có tranh luận ủng hộ hoặc chống lại thủ tục thứ hai?
Vâng, trong bài báo trên, chúng tôi đã tìm thấy tổng lỗi (bias² + phương sai) của lỗi khởi động và lặp lại / lặp đi lặp lại k- xác thực chéo nhiều lần khá giống nhau (với oob có phương sai thấp hơn một chút nhưng độ lệch cao hơn - nhưng chúng tôi đã không theo dõi để kiểm tra xem / bao nhiêu sự đánh đổi này là do lấy lại / không thay thế và bao nhiêu là do tỷ lệ phân chia khác nhau khoảng 1: 2 cho oob).
Mặc dù vậy, hãy nhớ rằng tôi đang nói về độ chính xác trong các tình huống cỡ mẫu nhỏ, trong đó người đóng góp chi phối cho độ không đảm bảo phương sai là giống nhau cho tất cả các sơ đồ lấy mẫu lại: số lượng mẫu thực sự hạn chế để thử nghiệm và điều đó cũng tương tự đối với oob , xác nhận chéo hoặc xác thực thiết lập. Lặp lại / lặp lại cho phép bạn giảm phương sai gây ra bởi sự không ổn định của các mô hình (thay thế), nhưng không phải là độ không đảm bảo của phương sai do tổng kích thước mẫu bị giới hạn.
Như vậy, giả định rằng bạn thực hiện một số cách đầy đủ lớn lặp lại / lặp lại N, tôi không mong đợi khác biệt thực tế có liên quan trong việc thực hiện các chương trình xác nhận.
Mặc dù vậy, một lược đồ xác nhận có thể phù hợp hơn với kịch bản bạn cố gắng mô phỏng bằng cách lấy mẫu lại.