Các caret gói là một thư viện R rực rỡ cho việc xây dựng nhiều mô hình học máy, và có một số chức năng để xây dựng và đánh giá mô hình. Để điều chỉnh tham số và đào tạo mô hình, gói caret cung cấp 'repeatcv' là một trong những phương pháp.
Như một cách thực hành tốt, điều chỉnh tham số có thể được thực hiện bằng cách sử dụng xác thực chéo K-Fold lồng nhau, hoạt động như sau:
- Phân vùng tập huấn thành tập con 'K'
- Trong mỗi lần lặp, hãy lấy các tập con 'K trừ 1' để đào tạo mô hình và giữ 1 tập hợp con (tập giữ) để kiểm tra mô hình.
- Tiếp tục phân vùng tập huấn 'K trừ 1' thành tập con 'K' và lặp lại sử dụng tập hợp con 'K trừ 1' mới và 'tập xác thực' để điều chỉnh tham số (tìm kiếm lưới). Tham số tốt nhất được xác định trong bước này được sử dụng để kiểm tra trên bộ giữ ở bước 2.
Mặt khác, tôi giả sử, việc xác thực chéo K-lần lặp lại có thể lặp lại bước 1 và 2 lặp đi lặp lại như nhiều lần chúng ta chọn để tìm phương sai mô hình.
Tuy nhiên, xem qua thuật toán trong hướng dẫn sử dụng, có vẻ như phương thức 'repeatcv' cũng có thể thực hiện xác nhận chéo K-lồng lồng nhau, ngoài việc lặp lại xác thực chéo.
Câu hỏi của tôi là:
- Là cách nói của tôi về phương pháp 'repeatcv' của caret có đúng không?
- Nếu không, bạn có thể vui lòng cho một ví dụ về việc sử dụng xác thực chéo K-Fold lồng nhau, với phương thức 'repeatcv' bằng cách sử dụng gói caret không?
Biên tập:
Các chiến lược xác nhận chéo khác nhau được giải thích và so sánh trong bài viết phương pháp này.
Krstajic D, Buturovic LJ, Leahy DE và Thomas S : Cạm bẫy xác thực chéo khi lựa chọn và đánh giá mô hình hồi quy và phân loại . Tạp chí Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10
Tôi quan tâm đến Thuật toán 2: phân tầng lặp lại lồng ghép xác thực chéo và Thuật toán 3: lặp lại xác thực chéo tìm kiếm lưới để lựa chọn biến và điều chỉnh tham số bằng cách sử dụng gói caret.