Hiểu biết của tôi là với xác nhận chéo và lựa chọn mô hình, chúng tôi cố gắng giải quyết hai điều:
P1 . Ước tính tổn thất dự kiến về dân số khi đào tạo với mẫu của chúng tôi
P2 . Đo lường và báo cáo sự không chắc chắn của chúng tôi về ước tính này (phương sai, khoảng tin cậy, sai lệch, v.v.)
Thực hành tiêu chuẩn dường như được thực hiện xác nhận chéo lặp đi lặp lại, vì điều này làm giảm phương sai của công cụ ước tính của chúng tôi.
Tuy nhiên, khi nói đến báo cáo và phân tích, tôi hiểu rằng xác nhận nội bộ tốt hơn xác nhận bên ngoài vì:
Nó là tốt hơn để báo cáo:
- Số liệu thống kê của công cụ ước tính của chúng tôi, ví dụ: khoảng tin cậy, phương sai, giá trị trung bình, v.v. trên mẫu đầy đủ (trong trường hợp này là mẫu CV).
hơn báo cáo:
Việc mất công cụ ước tính của chúng tôi trên một tập hợp con của mẫu ban đầu, kể từ:
(i) Đây sẽ là một phép đo duy nhất ( ngay cả khi chúng tôi chọn công cụ ước tính bằng CV )
(ii) Công cụ ước tính của chúng tôi cho phép đo đơn này sẽ được đào tạo trên một bộ (ví dụ: bộ CV) nhỏ hơn mẫu ban đầu của chúng tôi vì chúng tôi phải dành chỗ cho bộ giữ ngoài. Điều này dẫn đến một ước tính sai lệch (bi quan) hơn trong P1 .
Điều này có đúng không? Nếu không tại sao?
Lý lịch:
Rất dễ tìm thấy sách giáo khoa khuyên bạn nên chia mẫu của bạn thành hai bộ:
- Các CV bộ, mà sau đó và liên tục được chia thành tàu và xác nhận bộ.
- Bộ giữ (kiểm tra), chỉ được sử dụng ở cuối để báo cáo hiệu suất của công cụ ước tính
Câu hỏi của tôi là một nỗ lực để hiểu những ưu điểm và lợi thế của phương pháp sách giáo khoa này, xem xét rằng mục tiêu của chúng tôi là thực sự giải quyết các vấn đề P1 và P2 ở đầu bài này. Đối với tôi, việc báo cáo về bộ kiểm tra giữ là thực tiễn tồi vì việc phân tích mẫu CV có nhiều thông tin hơn.
K-Fold lồng nhau so với K-Fold lặp lại:
Về nguyên tắc, người ta có thể kết hợp giữ với K-Fold thông thường để có được K-Fold lồng nhau . Điều này sẽ cho phép chúng tôi đo lường mức độ biến thiên của công cụ ước tính của chúng tôi, nhưng theo tôi, với cùng một số lượng mô hình được đào tạo (tổng số lần gấp) sẽ tạo ra các công cụ ước tính ít sai lệch và chính xác hơn so với K- lồng nhau gập lại. Để thấy điều này:
- K-Fold lặp lại sử dụng một phần lớn hơn trong tổng số mẫu của chúng tôi so với K-Fold lồng nhau cho cùng một K (nghĩa là nó dẫn đến độ lệch thấp hơn)
- 100 lần lặp sẽ chỉ đưa ra 10 phép đo của công cụ ước tính của chúng tôi trong K-Fold lồng nhau (K = 10), nhưng 100 lần đo trong K-gấp (nhiều phép đo hơn dẫn đến phương sai thấp hơn trong P2 )
Có gì sai với lý do này?