Tôi đang xử lý một dữ liệu không cân bằng cao, vì vậy tôi đã sử dụng thuật toán SMOTE để lấy mẫu lại tập dữ liệu.
Sau khi lấy mẫu lại SMote, tôi đã tách bộ dữ liệu được lấy mẫu lại thành tập huấn luyện / kiểm thử, sử dụng tập huấn luyện để xây dựng mô hình và tập kiểm thử để đánh giá mô hình.
Tuy nhiên, tôi lo lắng về việc một số điểm dữ liệu trong các bộ kiểm thử có thể thực sự bị xáo trộn từ các điểm dữ liệu trong tập huấn luyện (tức là thông tin bị rò rỉ từ tập huấn luyện sang tập kiểm thử), vì vậy tập kiểm thử không thực sự là một tập hợp sạch thử nghiệm.
Có ai có kinh nghiệm tương tự? Liệu thông tin thực sự rò rỉ từ đào tạo đến thử nghiệm? Hoặc thuật toán SMOTE thực sự quan tâm đến nó và chúng ta không phải lo lắng về nó?
Cảm ơn rất nhiều!