Hold-out thường được sử dụng đồng nghĩa với xác nhận với bộ kiểm tra độc lập, mặc dù có những khác biệt quan trọng giữa việc chia dữ liệu ngẫu nhiên và thiết kế một thử nghiệm xác thực cho thử nghiệm độc lập.
Các bộ kiểm tra độc lập có thể được sử dụng để đo lường hiệu suất tổng quát hóa mà không thể đo lường được bằng cách lấy mẫu lại hoặc xác nhận giữ lại, ví dụ: hiệu suất cho các trường hợp không xác định trong tương lai (= các trường hợp được đo sau đó, sau khi đào tạo kết thúc). Điều này rất quan trọng để biết một mô hình hiện tại có thể được sử dụng cho dữ liệu mới trong bao lâu (ví dụ như về sự trôi dạt của thiết bị). Tổng quát hơn, điều này có thể được mô tả là đo hiệu suất ngoại suy để xác định giới hạn của khả năng áp dụng.
Một kịch bản khác mà việc giữ chỗ thực sự có thể có lợi là: rất dễ dàng để đảm bảo rằng dữ liệu đào tạo và kiểm tra được phân tách đúng cách - dễ dàng hơn nhiều so với xác thực lại mẫu:
- quyết định chia tách (ví dụ: phân công ngẫu nhiên các trường hợp)
- đo lường
- dữ liệu đo lường và tham chiếu của các trường hợp đào tạo => mô hình hóa \ không đo lường cũng không tham chiếu các trường hợp thử nghiệm được trao cho người lập mô hình.
- mô hình cuối cùng + số đo của các trường hợp được tổ chức => dự đoán
- so sánh dự đoán với tham chiếu cho các trường hợp tổ chức.
Tùy thuộc vào mức độ phân tách bạn cần, mỗi bước có thể được thực hiện bởi người khác. Ở cấp độ đầu tiên, việc không bàn giao bất kỳ dữ liệu nào (thậm chí không phải các phép đo) của các trường hợp thử nghiệm cho nhà mô hình hóa cho phép rất chắc chắn rằng không có dữ liệu thử nghiệm nào bị rò rỉ vào quá trình mô hình hóa. Ở cấp độ thứ hai, mô hình cuối cùng và các phép đo trường hợp thử nghiệm có thể được bàn giao cho người khác, v.v.
Có, bạn phải trả cho điều đó bằng hiệu quả thấp hơn của các ước tính giữ lại so với xác nhận lại mẫu. Nhưng tôi đã thấy nhiều bài báo mà tôi nghi ngờ rằng việc xác thực lấy mẫu lại không phân tách đúng các trường hợp (trong lĩnh vực của tôi, chúng tôi có rất nhiều dữ liệu được phân cụm / phân cấp / nhóm).
Tôi đã học được bài học về rò rỉ dữ liệu để lấy mẫu lại bằng cách rút lại bản thảo một tuần sau khi nộp khi tôi phát hiện ra rằng tôi đã bị phát hiện trước đó (bằng cách chạy thử nghiệm hoán vị cùng với) trong quy trình chia tách (lỗi chính tả trong tính toán chỉ số).
Đôi khi, giữ lại có thể hiệu quả hơn so với việc tìm kiếm một người sẵn sàng dành thời gian để kiểm tra mã lấy mẫu lại (ví dụ: đối với dữ liệu được phân cụm) để đạt được mức độ chắc chắn tương tự về kết quả. Tuy nhiên, IMHO thường không hiệu quả để làm điều này trước khi bạn ở giai đoạn mà bạn cần phải đo lường, ví dụ như hiệu suất trong tương lai (điểm đầu tiên) - nói cách khác, khi bạn cần phải thiết lập một thử nghiệm xác thực cho mô hình hiện có.
OTOH, trong các tình huống cỡ mẫu nhỏ, không có lựa chọn nào: bạn cần giữ đủ các trường hợp kiểm tra để kết quả kiểm tra đủ chính xác để cho phép kết luận cần thiết (hãy nhớ: 3 trong số 3 trường hợp kiểm tra có nghĩa là phân loại khoảng tin cậy nhị phân 95% nằm trong khoảng dưới 50:50 đoán!) Frank Harrell sẽ chỉ ra quy tắc ngón tay cái ít nhất là ca. 100 trường hợp (kiểm tra) là cần thiết để đo lường một tỷ lệ chính xác [chẳng hạn như tỷ lệ các trường hợp dự đoán chính xác] với độ chính xác hữu ích.
Cập nhật: có những tình huống chia tách thích hợp đặc biệt khó đạt được và xác nhận chéo trở nên không khả thi. Hãy xem xét một vấn đề với một số yếu tố gây nhiễu. Việc phân tách rất dễ dàng nếu các yếu tố gây nhiễu này được lồng nhau nghiêm ngặt (ví dụ một nghiên cứu với một số bệnh nhân có một vài mẫu của từng bệnh nhân và phân tích một số tế bào của từng mẫu): bạn phân chia ở mức cao nhất của hệ thống phân cấp lấy mẫu (bệnh nhân khôn ngoan) . Nhưng bạn có thể có các yếu tố gây nhiễu độc lập không được lồng nhau, ví dụ: biến đổi hàng ngày hoặc phương sai gây ra bởi các thử nghiệm khác nhau chạy thử nghiệm. Sau đó, bạn cần đảm bảo rằng phần tách là độc lập cho tất cảcác yếu tố gây nhiễu ở mức cao nhất (các yếu tố gây nhiễu lồng nhau sẽ tự động độc lập). Việc xử lý vấn đề này rất khó khăn nếu một số yếu tố gây nhiễu chỉ được xác định trong quá trình nghiên cứu, và thiết kế và thực hiện một thí nghiệm xác nhận có thể hiệu quả hơn so với việc xử lý các phần tách mà hầu như không có dữ liệu để đào tạo cũng như không thử nghiệm các mô hình thay thế.