Bạn sẽ ngạc nhiên khi thấy rằng 80/20 là một tỷ lệ khá phổ biến, thường được gọi là nguyên tắc Pareto . Đó thường là đặt cược an toàn nếu bạn sử dụng tỷ lệ đó.
Tuy nhiên, tùy thuộc vào phương pháp đào tạo / xác nhận bạn sử dụng, tỷ lệ có thể thay đổi. Ví dụ: nếu bạn sử dụng xác thực chéo 10 lần, thì bạn sẽ kết thúc với bộ xác thực 10% ở mỗi lần.
Đã có một số nghiên cứu về tỷ lệ thích hợp giữa tập huấn luyện và tập xác thực :
Tỷ lệ các mẫu dành riêng cho bộ xác thực phải tỷ lệ nghịch với căn bậc hai của số lượng tham số điều chỉnh miễn phí.
Trong kết luận của họ, họ chỉ định một công thức:
Bộ xác nhận (v) cho tỷ lệ kích thước của tập huấn luyện (t), v / t, tỷ lệ như ln (N / h-max), trong đó N là số gia đình của người nhận biết và h-max là độ phức tạp lớn nhất của các gia đình đó.
Ý nghĩa của sự phức tạp là:
Mỗi họ của bộ nhận dạng được đặc trưng bởi độ phức tạp của nó, có thể có hoặc không liên quan đến kích thước VC , chiều dài mô tả, số lượng tham số có thể điều chỉnh hoặc các biện pháp phức tạp khác.
Lấy quy tắc đầu tiên (bộ ievalidation phải tỷ lệ nghịch với căn bậc hai của số tham số điều chỉnh miễn phí), bạn có thể kết luận rằng nếu bạn có 32 tham số có thể điều chỉnh, căn bậc hai của 32 là ~ 5,65, phân số phải là 1 / 5.65 hoặc 0.177 (v / t). Khoảng 17,7% nên được dành riêng để xác nhận và 82,3% cho đào tạo.