Các lỗi xử lý dữ liệu đã được 'định giá' để phân tích thống kê chưa?


10

Ok, cảnh báo công bằng - đây là một câu hỏi triết học không liên quan đến số. Tôi đã suy nghĩ rất nhiều về việc các lỗi xuất hiện trong các tập dữ liệu theo thời gian và các nhà phân tích nên xử lý vấn đề đó như thế nào - hoặc liệu nó có thực sự quan trọng không?

Về nền tảng, tôi đang phân tích một nghiên cứu dài hạn liên quan đến nhiều bộ dữ liệu được thu thập bởi khoảng 25 người trong 7-8 năm - không ai từng đưa tất cả dữ liệu vào một cấu trúc mạch lạc (đó là công việc của tôi). Tôi đã thực hiện nhiều thao tác nhập dữ liệu (sao chép từ bản sao của sổ ghi chép trong phòng thí nghiệm cũ) và tôi liên tục tìm thấy các lỗi sao chép nhỏ mà những người khác mắc phải và cũng tìm thấy các mục dữ liệu khó đọc hoặc không thể đọc được - chủ yếu là do mực đã phai mờ theo thời gian. Tôi đang sử dụng ngữ cảnh để đưa ra 'dự đoán tốt nhất' về những gì dữ liệu nói và để lại dữ liệu hoàn toàn chỉ ra nếu tôi không chắc chắn lắm. Nhưng tôi cứ nghĩ về thực tế là mỗi khi dữ liệu được sao chép, tần suất lỗi chắc chắn sẽ tăng lên cho đến khi dữ liệu gốc bị mất hoàn toàn.

Vì vậy, điều này dẫn tôi đến một suy nghĩ: ngoài lỗi dụng cụ / đo lường và lỗi ghi âm, còn có một thành phần 'lỗi xử lý dữ liệu' cơ bản sẽ tăng theo thời gian và xử lý dữ liệu nhiều hơn (lưu ý phụ: đây có thể là chỉ là một cách khác để nêu luật thứ hai của Nhiệt động lực học, phải không? Entropy dữ liệu sẽ luôn tăng). Do đó, tôi tự hỏi liệu có nên đưa ra một loại 'hiệu chỉnh' nào đó để giải thích cho lịch sử cuộc sống của các tập dữ liệu (có gì đó giống với hiệu chỉnh Bonferroni) không? Nói cách khác, chúng ta có nên cho rằng các bộ dữ liệu cũ hơn hoặc nhiều bản sao hơn sẽ kém chính xác hơn và nếu vậy, chúng ta có nên điều chỉnh các phát hiện cho phù hợp không?

Nhưng sau đó, suy nghĩ khác của tôi là lỗi là một phần vốn có của việc thu thập dữ liệu và xử lý dữ liệu, và vì tất cả các kiểm tra thống kê đã được phát triển với dữ liệu trong thế giới thực, có lẽ các nguồn lỗi này đã được 'định giá' để phân tích?

Ngoài ra, một điểm đáng nói nữa là do lỗi dữ liệu là ngẫu nhiên, nên chúng có khả năng giảm sức mạnh của việc tìm kiếm nhiều hơn là cải thiện nó - nói cách khác, lỗi xử lý dữ liệu sẽ dẫn đến lỗi Loại 2, không phải lỗi Loại 1 . Vì vậy, trong nhiều bối cảnh, nếu bạn đang sử dụng dữ liệu cũ / nghi vấn mà vẫn tìm thấy hiệu ứng, điều đó sẽ làm tăng sự tin tưởng của bạn rằng hiệu ứng là có thật (vì nó đủ mạnh để tồn tại khi thêm lỗi ngẫu nhiên vào tập dữ liệu). Vì vậy, vì lý do đó, có lẽ 'hiệu chỉnh' nên đi theo một cách khác (tăng mức độ alpha cần thiết cho một 'tìm kiếm'), hoặc chỉ không gây rắc rối cho chúng tôi?

Dù sao, xin lỗi vì quá dài dòng và khó hiểu, tôi không thực sự chắc chắn làm thế nào để hỏi câu hỏi này chính xác hơn. Cám ơn mang với tôi.


7
Đó là một câu hỏi hay (+1). Tuy nhiên, một điểm: có thể là một lỗi đáng kể để coi hầu hết các lỗi dữ liệu bạn đề cập là "ngẫu nhiên". Chẳng hạn, có xu hướng thay đổi nhiều hơn các chữ số "0", "5", "6" và "8" trong quá trình phiên mã so với các chữ số khác (và một số trong số này có thể bị đọc sai thành "." Và ngược lại ). Ngoài ra, những thay đổi được thực hiện đối với các giá trị dữ liệu nổi bật (như cực trị) thường nhanh chóng được xác định và sửa chữa. Mặc dù chắc chắn có một số yếu tố cơ hội cho các quá trình tham nhũng dữ liệu này, việc mô tả chúng một cách chính xác có thể là một vấn đề quan trọng.
whuber

1
Tại sao bạn không xử lý lỗi xử lý dữ liệu là một phần của lỗi đo lường và xử lý chúng theo đó? Nếu để đo số người đi công viên giải trí, tôi cần triển khai 20 người để xem cổng, thì tôi có thể coi đội 20 người này như một thiết bị đo lường
Aksakal

@whuber, vẫn là ngẫu nhiên để trộn 8 và 5, mặc dù nó có thể không có xác suất bằng nhau khi trộn 5 và 7.
Aksakal

1
@whuber, đó là một điểm hấp dẫn (tần số không bằng nhau của một số loại lỗi sao chép) mà tôi đã không nghĩ tới. Bạn có thể chỉ cho tôi về bất kỳ nguồn nào để tìm hiểu thêm về điều đó? Nó làm cho tôi tự hỏi nếu một thử nghiệm chất lượng dữ liệu có thể được phát triển, dựa trên tần số chữ số? Tôi đã nghe nói về các thử nghiệm tương tự đối với dữ liệu gian lận / giả mạo dựa trên tần số chữ số, vì vậy tôi tưởng tượng điều gì đó tương tự sẽ có thể xảy ra nếu các xu hướng bạn đề cập là nhất quán.
Jas Max

@whuber, thêm một suy nghĩ. Bạn đề cập đến 0, 5, 6, 8 thường bị nhầm lẫn - bởi vì chúng trông giống nhau? Nó khiến tôi nhận ra rằng các nguồn lỗi khác nhau sẽ có lỗi thay thế đặc trưng - ví dụ: nếu bạn đang nghe dữ liệu (ghi lại những gì ai đó đã nói) thì tôi nghĩ 5 và 9 có thể sẽ bị nhầm lẫn thường xuyên hơn. Nếu nguồn lỗi là entropy (mờ dần mực hoặc điện tử di chuyển) thì tôi nghĩ rằng sự thay thế sẽ ngẫu nhiên hơn, nhưng cũng có thể là duy nhất. Nếu các mẫu này được giữ, có lẽ bạn có thể điều tra các nguồn lỗi trong các tập dữ liệu lớn, dựa trên tần số chữ số.
Jas Max

Câu trả lời:


3

Tôi thứ hai gợi ý của @Aksakal: Nếu nhà phân tích thấy lỗi đo lường là có thể quan trọng, thì nó có thể và nên được mô hình hóa rõ ràng như là một phần của quá trình tạo dữ liệu.

Tôi thấy một số cân nhắc lập luận chống lại việc giới thiệu một yếu tố hiệu chỉnh chung dựa trên, ví dụ: tuổi của tập dữ liệu.

Đầu tiên, tuổi tác có thể là một proxy rất kém cho mức độ suy giảm dữ liệu. Công nghệ sao chép, nén và bảo tồn, và mức độ nỗ lực và chăm sóc đã đi vào xác minh phiên mã chính xác, rõ ràng là những yếu tố quan trọng. Một số văn bản cổ (ví dụ, Kinh thánh) đã được bảo tồn trong nhiều thế kỷ với sự xuống cấp rõ ràng bằng không. Ví dụ VHS của bạn, trong khi hợp pháp, thực sự không bình thường, trong đó mỗi sự kiện sao chép luôn gây ra lỗi và không có cách nào dễ dàng để kiểm tra và sửa lỗi sao chép - nếu sử dụng các công nghệ rẻ tiền, có sẵn rộng rãi để sao chép và lưu trữ. Tôi hy vọng rằng một mức độ thấp hơn các lỗi được giới thiệu đáng kể, thông qua các khoản đầu tư vào các hệ thống đắt tiền hơn.

Điểm cuối cùng này là tổng quát hơn: bảo tồn và truyền bá dữ liệu là các hoạt động kinh tế . Chất lượng truyền dẫn phụ thuộc rất lớn vào các tài nguyên được triển khai. Những lựa chọn này sẽ lần lượt phụ thuộc vào tầm quan trọng của dữ liệu đối với bất kỳ ai đang thực hiện sao chép và truyền.

Cân nhắc kinh tế áp dụng cho các nhà phân tích, là tốt. Luôn có nhiều yếu tố bạn có thể tính đến khi phân tích. Trong những điều kiện nào các lỗi sao chép dữ liệu sẽ đủ lớn và đủ quan trọng, rằng chúng có đáng để tính đến không? Linh cảm của tôi là: điều kiện như vậy không phổ biến. Ngoài ra, nếu sự xuống cấp dữ liệu tiềm năng được xem là đủ quan trọng để giải thích nó trong phân tích của bạn, thì có lẽ điều đó đủ quan trọng để nỗ lực mô hình hóa quy trình một cách rõ ràng, thay vì chèn một bước "hiệu chỉnh" chung chung.

Cuối cùng, không có nhu cầu để phát triển một ví dụ hệ số hiệu chỉnh chung de novo . Đã tồn tại một cơ thể đáng kể của lý thuyết và thực tiễn thống kê để phân tích các tập dữ liệu mà lỗi đo lường được coi là quan trọng.

Tóm lại: đó là một suy nghĩ thú vị. Nhưng tôi không nghĩ rằng nó sẽ thúc đẩy bất kỳ thay đổi trong thực hành phân tích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.