Tôi đã sử dụng xác nhận chéo k-lặp đi lặp lại và đã báo cáo giá trị trung bình (của số liệu đánh giá, ví dụ: độ nhạy, độ đặc hiệu) được tính là giá trị trung bình trong các lần chạy khác nhau của xác thực chéo.
Tuy nhiên, tôi không chắc chắn làm thế nào tôi nên báo cáo phương sai. Tôi đã tìm thấy nhiều câu hỏi ở đây thảo luận về xác nhận chéo lặp đi lặp lại, tuy nhiên, không có câu hỏi nào tôi biết về việc trả lời rõ ràng câu hỏi về phương sai trong các bài kiểm tra xác nhận chéo lặp đi lặp lại.
Tôi hiểu rằng tổng phương sai là do: 1) sự không ổn định của mô hình và 2) kích thước mẫu hạn chế.
Dường như có 4 cách tiếp cận khác nhau để tính toán phương sai cho xác nhận chéo k-Fold lặp đi lặp lại:
1) phương sai của số liệu hiệu suất trung bình ước tính (ví dụ: độ chính xác) trong các lần chạy xác thực chéo có phải là ước tính hợp lệ của phương sai không?
2) phương sai gộp lại bằng cách gộp phương sai chạy cụ thể (được tính trên các nếp gấp khác nhau của một lần chạy kiểm tra xác thực chéo).
3) để nối các kết quả phân loại từ các nếp gấp khác nhau của một lần xác thực chéo chạy trong một vectơ lớn. Chẳng hạn, nếu số lượng dữ liệu kiểm tra trong mỗi lần gấp là 10 và tôi có CV gấp 10 lần, thì vectơ kết quả cho sự lặp lại sẽ có kích thước 100. Bây giờ, nếu tôi lặp lại kiểm tra xác thực chéo của mình 10 lần, tôi sẽ có 10 vectơ kích thước 100, mỗi vectơ chứa kết quả phân loại từ lần chạy CV 10 lần. Bây giờ, tôi sẽ tính giá trị trung bình và phương sai như trường hợp CV chạy đơn.
4) Tôi cũng đã đọc trong (phương trình 2 và 3 trong 1 ) rằng phương sai là tổng phương sai bên ngoài và phương sai nội bộ dự kiến. Nếu tôi hiểu chính xác, phương sai bên ngoài là phương sai của hiệu suất trung bình cụ thể lặp lại và phương sai bên trong là phương sai trong các lần khác nhau của một lần xác thực chéo.
Tôi sẽ đánh giá rất cao sự giúp đỡ và hướng dẫn của bạn về phương sai nào sẽ là báo cáo thích hợp cho bài kiểm tra xác thực chéo được lặp lại.
Cảm ơn,