Điều này sẽ phụ thuộc vào cách tập luyện và kiểm tra của bạn được sáng tác.
Nếu bộ kiểm tra khá lớn và phản ánh chính xác sự đa dạng dữ liệu của "trường hợp ứng dụng", tôi sẽ không tranh luận như thế này. Nhưng nếu dữ liệu kiểm tra khá nhỏ, tất nhiên bạn có thể đạt được một số kết quả tốt hoặc xấu một cách tình cờ. Sử dụng nhiều dữ liệu thử nghiệm sẽ hữu ích là những trường hợp như vậy (hoặc sử dụng một phần lớn hơn trong tổng số dữ liệu có sẵn - nếu có thể).
Hơn nữa, nên thu được kết quả đào tạo bằng cách sử dụng một số phân vùng bên trong (ví dụ: xác nhận chéo lặp lại), để kiểm tra dữ liệu mà mô hình chưa từng thấy trước đây. Hiệu suất và hiệu suất trải đều trên các kết quả đó cho bạn thấy mô hình của bạn thường hoạt động như thế nào và khả năng đạt được kết quả tốt hơn hay xấu hơn. Sử dụng một quy trình như vậy, tôi sẽ không coi bất kỳ kết quả kiểm tra nào tốt hơn kết quả CV của bạn là thực tế. Có lẽ bạn cũng nên xem và so sánh hiệu suất CV và hiệu suất lan truyền của cả hai mô hình.
Và: hãy nhớ rằng nếu dữ liệu đào tạo của bạn khá nhỏ so với dữ liệu thử nghiệm của bạn, kết quả đào tạo của bạn có thể vẫn tốt hơn đáng kể so với kết quả thử nghiệm và kết quả trường hợp ứng dụng thực tế của bạn.