Điều này đôi khi được gọi là "Rò rỉ dữ liệu." Có một bài báo hay về điều này ở đây:
Rò rỉ trong khai thác dữ liệu: Xây dựng, phát hiện và tránh
Bài báo trên có rất nhiều ví dụ thú vị (và kinh hoàng) về rò rỉ dữ liệu, ví dụ, một cuộc thi dự đoán ung thư trong đó hóa ra số ID bệnh nhân có dự đoán gần như hoàn hảo về ung thư trong tương lai, vô tình vì cách các nhóm được hình thành trong suốt nghiên cứu .
Tôi không nghĩ rằng có một cách cắt rõ ràng để xác định rò rỉ dữ liệu. Bài viết trên có một số gợi ý nhưng nói chung nó rất cụ thể. Ví dụ, bạn chắc chắn có thể chỉ nhìn vào mối tương quan giữa các tính năng và mục tiêu của bạn. Tuy nhiên, đôi khi bạn sẽ bỏ lỡ mọi thứ. Ví dụ: hãy tưởng tượng bạn đang tạo một trình phát hiện bot spam cho một trang web như stackexchange, ngoài các tính năng thu thập như độ dài tin nhắn, nội dung, v.v., bạn có thể thu thập thông tin về việc tin nhắn có bị người dùng khác gắn cờ hay không. Tuy nhiên, nếu bạn muốn trình phát hiện bot của mình càng nhanh càng tốt, bạn không cần phải dựa vào cờ thông báo do người dùng tạo. Đương nhiên, các bot spam sẽ tích lũy một tấn cờ tin nhắn do người dùng tạo, vì vậy trình phân loại của bạn có thể bắt đầu dựa vào các cờ này, và ít hơn về nội dung của các tin nhắn. Theo cách này, bạn nên xem xét xóa cờ như một tính năng để bạn có thể gắn thẻ bot nhanh hơn nỗ lực của người dùng có nguồn gốc đám đông, tức là trước khi nhiều đối tượng tiếp xúc với tin nhắn của họ.
Đôi khi, bạn sẽ có một tính năng rất ngu ngốc gây ra sự phát hiện của bạn. Có một giai thoại hay ở đây về một câu chuyện về cách Quân đội cố gắng tạo ra một máy dò xe tăng, có độ chính xác gần như hoàn hảo, nhưng cuối cùng lại phát hiện ra những ngày nhiều mây thay vì tất cả các hình ảnh huấn luyện với xe tăng được chụp vào một ngày nhiều mây và mọi hình ảnh huấn luyện không có xe tăng đã được thực hiện vào một ngày rõ ràng. Một tài liệu rất phù hợp về vấn đề này là: "Tại sao tôi nên tin tưởng bạn?": Giải thích Dự đoán của bất kỳ phân loại nào - Ribeiro, et. al.