Bạn nên tách trước khi xử lý trước hoặc xử lý.
Sự phân chia giữa tập huấn luyện và tập kiểm tra là một nỗ lực tái tạo tình huống bạn có thông tin trong quá khứ và đang xây dựng một mô hình mà bạn sẽ kiểm tra thông tin chưa biết trong tương lai: tập huấn diễn ra quá khứ và tập kiểm tra diễn ra nơi của tương lai, vì vậy bạn chỉ có thể kiểm tra mô hình được đào tạo của bạn một lần.
Hãy ghi nhớ sự tương tự trong quá khứ / tương lai, điều này có nghĩa là bất cứ điều gì bạn làm để xử lý trước hoặc xử lý dữ liệu của mình, chẳng hạn như đưa ra các giá trị bị thiếu, bạn nên làm một mình trong tập huấn luyện. Sau đó, bạn có thể nhớ những gì bạn đã làm với tập huấn luyện của mình nếu tập kiểm tra của bạn cũng cần xử lý trước hoặc xử lý, để bạn thực hiện theo cách tương tự trên cả hai tập.
Đã thêm từ nhận xét: nếu bạn sử dụng dữ liệu thử nghiệm để ảnh hưởng đến dữ liệu đào tạo, thì dữ liệu thử nghiệm đang được sử dụng để xây dựng mô hình của bạn, do đó, nó không còn là dữ liệu thử nghiệm và sẽ không cung cấp thử nghiệm công bằng cho mô hình của bạn. Bạn có nguy cơ bị thừa, và điều đó không khuyến khích việc bạn tách dữ liệu thử nghiệm ngay từ đầu