Câu trả lời này tập trung vào câu hỏi thứ hai, nhưng trong quá trình, một câu trả lời một phần cho câu hỏi đầu tiên (hướng dẫn cho thủ tục QA / QC) sẽ xuất hiện.
Cho đến nay, điều tốt nhất bạn có thể làm là kiểm tra chất lượng dữ liệu tại thời điểm nhập cảnh. Việc kiểm tra và báo cáo của người dùng là sử dụng nhiều lao động và do đó nên được bảo lưu sau này trong quá trình, càng muộn càng tốt.
Dưới đây là một số nguyên tắc, hướng dẫn và đề xuất, xuất phát từ kinh nghiệm sâu rộng (với việc thiết kế và tạo ra nhiều cơ sở dữ liệu tương đương và lớn hơn nhiều so với của bạn). Chúng không phải là quy tắc; bạn không cần phải theo họ để thành công và hiệu quả; nhưng tất cả đều ở đây vì những lý do tuyệt vời và bạn nên suy nghĩ kỹ về việc đi chệch khỏi chúng.
Nhập dữ liệu riêng biệt từ tất cả các hoạt động đòi hỏi trí tuệ . Không yêu cầu các nhà khai thác nhập dữ liệu đồng thời kiểm tra bất cứ thứ gì, đếm bất cứ thứ gì, v.v. Hạn chế công việc của họ để tạo ra một bản fax dữ liệu có thể đọc được trên máy tính, không có gì hơn. Cụ thể, nguyên tắc này ngụ ý các biểu mẫu nhập dữ liệu sẽ phản ánh định dạng ban đầu bạn có được dữ liệu, không phải định dạng mà bạn dự định lưu trữ dữ liệu. Việc chuyển đổi định dạng này sang định dạng khác tương đối dễ dàng, nhưng đó là một quá trình dễ xảy ra lỗi để thử chuyển đổi khi đang nhập dữ liệu.
Tạo đường dẫn kiểm toán dữ liệu : bất cứ khi nào có dữ liệu được thực hiện, bắt đầu từ giai đoạn nhập dữ liệu, hãy ghi lại tài liệu này và ghi lại quy trình theo cách giúp bạn dễ dàng quay lại và kiểm tra xem có lỗi gì không (vì mọi thứ sẽ sai). Xem xét điền vào các trường cho dấu thời gian, số nhận dạng của nhà khai thác nhập dữ liệu, số nhận dạng nguồn cho dữ liệu gốc (như báo cáo và số trang của họ), v.v. Lưu trữ rất rẻ, nhưng thời gian để theo dõi lỗi rất tốn kém.
Tự động hóa mọi thứ. Giả sử bất kỳ bước nào sẽ phải được làm lại (tại thời điểm tồi tệ nhất có thể, theo Luật Murphy) và lên kế hoạch cho phù hợp. Đừng cố gắng tiết kiệm thời gian ngay bây giờ bằng cách thực hiện một vài "bước đơn giản" bằng tay.
Cụ thể, tạo hỗ trợ cho việc nhập dữ liệu : tạo giao diện người dùng cho mỗi bảng (thậm chí bảng tính có thể làm tốt) cung cấp cách thức rõ ràng, đơn giản, thống nhất để nhận dữ liệu. Đồng thời, giao diện người dùng sẽ thực thi "doanh nghiệp của bạn quy tắc: "nghĩa là, nó sẽ thực hiện càng nhiều kiểm tra tính hợp lệ đơn giản càng tốt. (Ví dụ: pH phải nằm trong khoảng từ 0 đến 14; tổng số phải dương.) Lý tưởng nhất là sử dụng DBMS để thực thi kiểm tra tính toàn vẹn quan hệ (ví dụ: mọi loài liên quan đến phép đo thực sự tồn tại trong cơ sở dữ liệu).
Liên tục đếm mọi thứ và kiểm tra mà đếm chính xác đồng ý. Ví dụ, nếu một nghiên cứu được cho là đo các thuộc tính của 10 loài, hãy đảm bảo (ngay khi nhập dữ liệu hoàn tất) rằng 10 loài thực sự được báo cáo. Mặc dù việc kiểm tra số lượng rất đơn giản và không chính xác, nhưng thật tuyệt vời khi phát hiện dữ liệu trùng lặp và bị bỏ qua.
Nếu dữ liệu có giá trị và quan trọng, hãy xem xét nhập hai lần độc lập toàn bộ dữ liệu . Điều này có nghĩa là mỗi mục sẽ được nhập vào những thời điểm riêng biệt bởi hai người không tương tác khác nhau. Đây là một cách tuyệt vời để bắt lỗi chính tả, thiếu dữ liệu, v.v. Việc kiểm tra chéo có thể hoàn toàn tự động. Điều này nhanh hơn, tốt hơn trong việc bắt lỗi và hiệu quả hơn so với kiểm tra kép thủ công 100%. (Mục nhập "người" có thể bao gồm các thiết bị như máy quét với OCR.)
Sử dụng DBMS để lưu trữ và quản lý dữ liệu. Bảng tính rất tốt để hỗ trợ nhập dữ liệu, nhưng hãy lấy dữ liệu của bạn ra khỏi bảng tính hoặc tệp văn bản và vào cơ sở dữ liệu thực tế càng sớm càng tốt. Điều này ngăn chặn tất cả các loại lỗi ngấm ngầm trong khi thêm nhiều hỗ trợ để kiểm tra tính toàn vẹn dữ liệu tự động. Nếu bạn phải, sử dụng phần mềm thống kê của bạn để lưu trữ và quản lý dữ liệu, nhưng nghiêm túc xem xét sử dụng DBMS chuyên dụng: nó sẽ thực hiện công việc tốt hơn.
Sau khi tất cả dữ liệu được nhập và tự động kiểm tra, hãy vẽ hình ảnh : tạo các bảng được sắp xếp, biểu đồ, biểu đồ phân tán, v.v. và xem xét tất cả. Chúng dễ dàng tự động với bất kỳ gói thống kê chính thức nào.
Đừng yêu cầu mọi người thực hiện các nhiệm vụ lặp đi lặp lại mà máy tính có thể làm . Máy tính nhanh hơn và đáng tin cậy hơn nhiều. Tập thói quen viết (và ghi lại) các tập lệnh nhỏ và các chương trình nhỏ để thực hiện bất kỳ nhiệm vụ nào không thể hoàn thành ngay lập tức. Chúng sẽ trở thành một phần của lộ trình kiểm toán của bạn và chúng sẽ cho phép công việc được làm lại dễ dàng. Sử dụng bất kỳ nền tảng nào bạn thấy thoải mái và phù hợp với nhiệm vụ. (Trong nhiều năm qua, tùy thuộc vào những gì có sẵn, tôi đã sử dụng một loạt các nền tảng như vậy và tất cả đều có hiệu quả theo cách của họ, từ các chương trình C và Fortran thông qua các tập lệnh AWK và SED, tập lệnh VBA cho Excel và Word, và tùy chỉnh các chương trình được viết cho các hệ thống cơ sở dữ liệu quan hệ, GIS và các nền tảng phân tích thống kê như R và Stata.)
Nếu bạn tuân theo hầu hết các hướng dẫn này, khoảng 50% -80% công việc nhận dữ liệu vào cơ sở dữ liệu sẽ là thiết kế cơ sở dữ liệu và viết các tập lệnh hỗ trợ. Không có gì lạ khi nhận được 90% thông qua một dự án như vậy và hoàn thành chưa đến 50%, nhưng vẫn hoàn thành đúng hạn: một khi mọi thứ đã được thiết lập và đã được kiểm tra, việc nhập và kiểm tra dữ liệu có thể hiệu quả đáng kinh ngạc.