Có những điều cơ bản bạn có thể làm với bất kỳ bộ dữ liệu nào:
- Xác thực các giá trị (Dung sai độ dài chuỗi, kiểu dữ liệu, mặt nạ định dạng, hiện diện trường bắt buộc, v.v.)
- Phạm vi chính xác (Dữ liệu có vẻ đúng này nằm trong phạm vi giá trị dự kiến)
- Xử lý sơ bộ (Nếu tôi cố gắng phân tích dữ liệu này, tôi có thể thực hiện các thao tác cơ bản mà không gặp phải lỗi không)
- Báo cáo sơ bộ (chạy báo cáo dựa trên tập dữ liệu và đảm bảo rằng nó vượt qua bài kiểm tra độ tỉnh táo)
- Xác định null so với rỗng so với zero so với Sai cho bất kỳ cột dữ liệu đã cho nào
- Xác định dữ liệu không đúng vị trí (giá trị số khác biệt đáng kể so với các giá trị khác trong tập dữ liệu, giá trị chuỗi trông giống như chúng có thể bị sai chính tả, v.v.)
- Loại bỏ hoặc sửa chữa dữ liệu rõ ràng sai lầm
Hiểu dữ liệu để xác định lỗi là một trò chơi bóng hoàn toàn khác, và nó rất quan trọng.
Chẳng hạn, bạn có thể có một quy tắc nói rằng số sê-ri phải có trong một tập dữ liệu nhất định và số sê-ri đó phải là chữ và số có độ dài chuỗi tối đa là 255 và độ dài chuỗi tối thiểu là 5.
Nhìn vào dữ liệu, bạn có thể thấy một giá trị số sê-ri cụ thể đọc "PLEASE ENTER SERIAL"
Nó hoàn toàn hợp lệ, nhưng sai.
Đó là một điều hiển nhiên, nhưng giả sử bạn đang xử lý dữ liệu chứng khoán và bạn có phạm vi giá cho 1000 cổ phiếu dưới một đô la. Rất nhiều người sẽ không biết rằng giá cổ phiếu quá thấp là không hợp lệ trên một số sàn giao dịch nhất định và hoàn toàn hợp lệ đối với những người khác. Bạn cần có kiến thức về dữ liệu của mình để hiểu liệu những gì bạn đang thấy có vấn đề hay không.
Trong thế giới thực, bạn không phải lúc nào cũng có thể hiểu được dữ liệu của mình một cách thân mật.
Cách tôi tránh các vấn đề là bằng cách tận dụng những người xung quanh tôi. Đối với các tập dữ liệu nhỏ, tôi có thể yêu cầu ai đó xem xét toàn bộ dữ liệu. Đối với những mẫu lớn, việc kéo một tập hợp các mẫu ngẫu nhiên và yêu cầu ai đó thực hiện kiểm tra độ tỉnh táo trên dữ liệu là phù hợp hơn.
Hơn nữa, việc đặt câu hỏi về nguồn dữ liệu và mức độ tin cậy của nguồn dữ liệu đó là bắt buộc. Tôi thường có nhiều nguồn dữ liệu mâu thuẫn và chúng tôi tạo ra các quy tắc để xác định "nguồn sự thật". Đôi khi một bộ dữ liệu có dữ liệu lớn trong một khía cạnh nhất định, nhưng các bộ dữ liệu khác mạnh hơn ở các khu vực khác.
Dữ liệu được nhập thủ công thường là điều tôi nghi ngờ nhất, nhưng trong một số trường hợp, dữ liệu đó mạnh hơn bất kỳ thứ gì có thể có được thông qua tự động hóa.