Kiểm tra tính nhất quán là gì?


11

Tôi đã được hỏi một câu hỏi như "Bạn đã thực hiện bất kỳ kiểm tra tính nhất quán trong công việc hàng ngày của bạn?" trong một cuộc phỏng vấn qua điện thoại cho vị trí Biuleristician. Tôi không biết phải trả lời sao. Bất kỳ thông tin được đánh giá cao.

Câu trả lời:


17

Để danh sách của chl, tập trung vào các lỗi xử lý dữ liệu thẳng thắn, tôi sẽ thêm kiểm tra các lỗi tinh vi hơn để giải quyết các câu hỏi và vấn đề sau (được đưa ra không theo thứ tự cụ thể và chắc chắn không đầy đủ):

  1. Giả sử tính toàn vẹn của cơ sở dữ liệu, dữ liệu có hợp lý không? Liệu chúng có phù hợp với kỳ vọng hoặc các mô hình thông thường, hoặc chúng sẽ gây ngạc nhiên cho ai đó quen thuộc với dữ liệu tương tự?

  2. Là dữ liệu phù hợp trong nội bộ? Ví dụ: nếu một trường được coi là tổng của hai trường khác, phải không?

  3. Làm thế nào đầy đủ là dữ liệu? Có phải chúng là những gì đã được chỉ định trong giai đoạn lập kế hoạch thu thập dữ liệu? Có bất kỳ dữ liệu bổ sung mà không được lên kế hoạch cho? Nếu vậy, tại sao họ ở đó?

  4. Hầu hết các phân tích ngầm định hoặc mô hình hóa dữ liệu một cách rõ ràng và bao gồm khả năng biến đổi từ mô tả chung. Mỗi mô hình như vậy gợi ý cách riêng để xác định các ngoại lệ - dữ liệu sai lệch đáng kể so với mô tả chung. Đã cố gắng để xác định và hiểu các ngoại lệ ở mỗi giai đoạn thăm dò và phân tích?

  5. Trong nhiều trường hợp, nhà phân tích có thể đưa dữ liệu bổ sung vào phân tích để kiểm tra chất lượng và hiểu biết sâu sắc. Ví dụ: nhiều bộ dữ liệu trong khoa học tự nhiên và xã hội cũng như kinh doanh bao gồm (ít nhất là ngầm) thông tin vị trí: số nhận dạng của các vùng Điều tra dân số; tên quốc gia, tiểu bang, quận; mã zip khách hàng; và như thế. Ngay cả khi - có lẽ đặc biệt là nếu - tương quan không gian không phải là một yếu tố của EDA hoặc mô hình hóa, nhà phân tích có thể nối dữ liệu với các biểu diễn địa lý của các vị trí và ánh xạ chúng để tìm kiếm các mẫu và ngoại lệ.

  6. Một trong những lỗi ngấm ngầm nhất có thể len ​​lỏi vào phân tích là mất dữ liệu. Khi trích xuất các trường, tóm tắt dữ liệu, định dạng lại bộ dữ liệu, v.v., nếu một hoặc hai mục bị loại bỏ khỏi một tập dữ liệu lớn thường sẽ không có gì để gắn cờ. Nhưng đôi khi một cái gì đó quan trọng bị mất, với sự bối rối tột độ của một người nếu nó được phát hiện. Kiểm tra đơn giản - chẳng hạn như so sánh trước và sau khi đếm và tổng số dữ liệu - cần diễn ra thường xuyên để bảo vệ chống lại những điều đó.

  7. Một lỗi ngấm ngầm khác có liên quan đến chuyển đổi loại trong máy tính kỹ thuật số. Ví dụ, gần đây tôi đã phải xây dựng một khóa (để khớp hai tệp dữ liệu) từ một trường dấu phẩy động. Phần mềm (Stata) đã nhập trường dưới dạng một độ chính xác duy nhất trong một tệp nhưng vì lý do nào đó, là một độ chính xác kép nổi trong một tệp khác. Hầu hết thời gian các giá trị khớp nhau, nhưng trong một số trường hợp do làm tròn khác nhau, chúng không làm được. Một số dữ liệu đã bị mất do kết quả. Tôi bắt gặp điều này chỉ do ứng dụng của (6). Nói chung, nó trả tiền để kiểm tra tính nhất quán của các loại dữ liệu trường: ints so với float, độ dài của chuỗi, v.v.

  8. Nếu một bảng tính được sử dụng ở bất kỳ giai đoạn phân tích nào, hãy chờ đợi điều tồi tệ nhất. Vấn đề là ngay cả một tổ hợp phím đi lạc cũng có thể vô hình làm hỏng dữ liệu. Khi kết quả rất quan trọng, họ phải trả tiền để tiếp tục quay lại - xuất sang bảng tính, thực hiện phân tích, nhập lại và so sánh một cách có hệ thống - để đảm bảo không có điều gì xảy ra.

  9. Bất cứ khi nào một cơ sở dữ liệu được cập nhật, đáng để tạm dừng và thực hiện các so sánh hoàn chỉnh có hệ thống với cơ sở dữ liệu cũ để đảm bảo không có gì bị mất, thay đổi hoặc bị hỏng trong quá trình.

  10. Ở cấp độ cao hơn, bất cứ khi nào ước tính được thực hiện (như hồi quy, PCA, bất cứ điều gì), có thể đáng để thực hiện bằng cách sử dụng một kỹ thuật khác để kiểm tra độ nhạy hoặc thậm chí các lỗi có thể có trong mã. Ví dụ, theo hồi quy OLS bằng một số hình thức hồi quy mạnh và so sánh các hệ số. Đối với các kết quả quan trọng, có thể thoải mái khi có được câu trả lời bằng cách sử dụng hai (hoặc nhiều) nền tảng phần mềm khác nhau.

Có lẽ loại "kiểm tra tính nhất quán" tốt nhất mà bất cứ ai cũng có thể thực hiện là vẽ biểu đồ mọi thứ, sớm và thường xuyên.


8

Tôi cho rằng điều này có liên quan đến một số hình thức Kiểm soát chất lượng về tính toàn vẹn dữ liệu và cụ thể hơn là bạn thường xuyên kiểm tra xem cơ sở dữ liệu làm việc của bạn không bị hỏng (do lỗi trong quá trình chuyển, sao chép hoặc sau khi cập nhật hoặc kiểm tra độ tỉnh táo). Điều này cũng có nghĩa là đảm bảo rằng tính toán trung gian của bạn được kiểm tra hai lần (bằng tay hoặc thông qua mã hoặc macro bổ sung trong phần mềm thống kê của bạn).

Thông tin khác có thể được tìm thấy ở đây: hướng dẫn tham khảo ICH E6 (R1) về Hướng dẫn thực hành lâm sàng tốt từ EMEA, Hướng dẫn thực hành phòng thí nghiệm lâm sàng tốt hoặc Hộp công cụ nghiên cứu lâm sàng nghiên cứu lâm sàng .


1

để thêm vào những điểm tốt khác

Khi sử dụng Excel, tôi luôn tạo số trường hợp làm cột đầu tiên cho mỗi dòng, sau đó được sao chép vào cột cuối cùng. Excel có vẻ khá vui khi sắp xếp chỉ một vài cột cùng một lúc, gây ra sự hỗn loạn nếu bạn không cẩn thận chọn tất cả chúng. Bạn thậm chí có thể không nhận thức được rằng điều này đã xảy ra. Có thể kiểm tra các số trường hợp đồng ý trong các cột đầu tiên và cuối cùng của một dòng là một biện pháp phòng ngừa hữu ích.

Tôi luôn luôn xem xét các ngoại lệ.

Nên nhập hai lần dữ liệu bởi những người riêng biệt cho công việc quan trọng.

Khi nhập dữ liệu từ tài liệu giấy, bạn nên sử dụng mã định danh tham chiếu để có thể quay lại tài liệu và dòng chính xác từ đó mục nhập xuất phát, đánh số biểu mẫu nhập dữ liệu giúp ích cho việc này.

Chỉnh sửa - Một mục khác - Tôi biết rằng chỉnh sửa bảng tính có nhiều vấn đề, nhưng việc dọn dẹp nhập dữ liệu với chúng sẽ dễ dàng hơn nhiều. Tuy nhiên, tôi cũng giữ phiên bản chưa được chỉnh sửa ban đầu để mọi thay đổi có thể được xác minh hoặc trong trường hợp xấu nhất được khôi phục.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.