Có phải xác thực giữ lại là một xấp xỉ tốt hơn của việc nhận dữ liệu mới hơn so với CV gấp?

Tôi đã suy nghĩ lại về một câu trả lời tôi đã đưa ra cho một câu hỏi vài tuần trước

Xác thực chéo giữ lại tạo ra một bộ thử nghiệm duy nhất có thể được sử dụng nhiều lần để trình diễn. Tất cả chúng ta dường như đồng ý rằng đây là một tính năng tiêu cực theo nhiều cách, vì một bộ được tổ chức có thể trở thành không đại diện thông qua tính ngẫu nhiên. Hơn nữa, bạn có thể kết thúc quá mức với dữ liệu thử nghiệm giống như cách bạn có thể phù hợp với dữ liệu đào tạo.

Tuy nhiên, đối với tôi, bản chất tĩnh của một mẫu được tổ chức là một xấp xỉ tốt hơn của việc "lấy nhiều dữ liệu" hơn so với CV gấp và tránh vấn đề tính trung bình trên các nếp gấp. Tuy nhiên, tôi không thể đưa ra bất kỳ cơ sở thống kê nào cho cảm giác này. Có logic nào trong trực giác của tôi không?

Ví dụ, những gì tôi có trong đầu cho một dự án sắp tới trước tiên là sử dụng xác thực giữ để xây dựng và kiểm tra một mô hình, sau đó là một bước xác thực vẽ lại thiết lập giữ lại nhiều lần để cho thấy rằng các ước tính của tôi về lỗi dự đoán ( trên bộ kiểm tra) rất mạnh để lấy mẫu lỗi trong bộ kiểm tra. Đây có phải là một ý tưởng tồi cho bất kỳ lý do? Câu hỏi này đã được hỏi trước đây nhưng không bao giờ nhận được câu trả lời.

cross-validation

— bóng tối
nguồn

IMHO một trong những tính chất tồi tệ nhất của xác nhận tạm giữ là tâm lý chứ không phải thống kê: Tôi thấy rất nhiều sự trì hoãn được diễn giải như thể đó là một thử nghiệm xác thực độc lập (với tính độc lập đã ở cấp độ thử nghiệm), mặc dù nhiều trong số đó các vấn đề quan trọng mà tôi thấy với việc xác thực lại quá trình lấy mẫu có thể và cũng sẽ xảy ra tương tự với việc giữ lại (bất kỳ vấn đề nào phát sinh từ việc chia tách không đúng cách).

Ngoài ra, IMHO nó gần giống như việc lấy mẫu lại (ít nhất là tôi đã thấy nó được thực hiện trong thực tế). Sự khác biệt là

tổng số trường hợp thực tế được thử nghiệm khác nhau thấp hơn (và do đó ước tính ít chắc chắn hơn).
Với chế độ chờ, hiệu suất được yêu cầu cho mô hình được thử nghiệm thực sự, không phải cho một mô hình thực sự chưa được thử nghiệm được xây dựng từ tính năng giữ ngoài cộng với dữ liệu thử nghiệm giữ. Lấy mẫu lại tuyên bố rằng hiệu suất đo được gần đúng với hiệu suất của mô hình sau. Nhưng tôi cũng đã thấy cách tiếp cận giữ lại được sử dụng theo cách này ("thiết lập xác thực").

Esbensen và Geladi: Nguyên tắc xác nhận hợp lệ: sử dụng và lạm dụng lấy mẫu lại để xác nhận, Tạp chí Hóa học, 24 (3-4), 168-187 lập luận rằng về mặt thực tế, cả hai đều không phải là xấp xỉ rất tốt cho các tập dữ liệu (xác thực thí nghiệm) cho phép đo các đặc tính hiệu suất thực sự thú vị.

bạn có thể kết thúc quá mức với dữ liệu thử nghiệm giống như cách bạn có thể phù hợp với dữ liệu đào tạo.

Giống như với bất kỳ xác nhận nào khác: nếu bạn thực hiện lựa chọn mô hình / mô hình dựa trên dữ liệu, thì cần một mức xác thực độc lập khác. Tôi không thấy bất kỳ sự khác biệt nào ở đây giữa các kế hoạch giữ và lấy mẫu lại.

đầu tiên sử dụng xác thực giữ để xây dựng và kiểm tra mô hình, sau đó là bước xác thực, vẽ lại thiết lập giữ lại nhiều lần để cho thấy rằng các ước tính của tôi về lỗi dự đoán (trên bộ kiểm tra) rất mạnh đối với lỗi lấy mẫu trong thử nghiệm bộ. Đây có phải là một ý tưởng tồi cho bất kỳ lý do?

Tôi nghĩ vậy, vâng: IMHO nên sử dụng một thiết lập lồng nhau
(trừ khi bạn muốn đề xuất rằng xác thực giữ lại có thể và cũng nên được lặp lại - đó là một cách tiếp cận hợp lệ khác với xác thực lặp lại / lặp đi lặp lại chỉ bằng cách diễn giải : cho dù tuyên bố hiệu suất là về nhiều mô hình được thử nghiệm thực sự hay liệu có được ngoại suy thành một mô hình được xây dựng cho tất cả dữ liệu hay không).

— cbeleites không hài lòng với SX
nguồn