Áp dụng EDA trên dữ liệu thử nghiệm là sai.
Đào tạo là quá trình xem xét các câu trả lời chính xác để tạo ra mô hình tốt nhất. Quá trình này không chỉ giới hạn ở việc chạy mã trên dữ liệu đào tạo. Sử dụng thông tin từ EDA để quyết định sử dụng mô hình nào, điều chỉnh các tham số, v.v. là một phần của quy trình đào tạo và do đó không được phép truy cập vào dữ liệu thử nghiệm. Vì vậy, để thành thật với chính mình, chỉ sử dụng dữ liệu thử nghiệm để kiểm tra hiệu suất của mô hình.
Ngoài ra, nếu bạn nhận ra mô hình không hoạt động tốt trong quá trình thử nghiệm và sau đó bạn quay lại để điều chỉnh mô hình của mình, thì điều đó cũng không tốt. Thay vào đó, hãy chia dữ liệu đào tạo của bạn thành hai. Sử dụng một để đào tạo và một cái khác để kiểm tra và điều chỉnh (các) mô hình của bạn. Xem sự khác biệt giữa bộ kiểm tra và bộ xác nhận là gì?