Ok, cảnh báo công bằng - đây là một câu hỏi triết học không liên quan đến số. Tôi đã suy nghĩ rất nhiều về việc các lỗi xuất hiện trong các tập dữ liệu theo thời gian và các nhà phân tích nên xử lý vấn đề đó như thế nào - hoặc liệu nó có thực sự quan trọng không?
Về nền tảng, tôi đang phân tích một nghiên cứu dài hạn liên quan đến nhiều bộ dữ liệu được thu thập bởi khoảng 25 người trong 7-8 năm - không ai từng đưa tất cả dữ liệu vào một cấu trúc mạch lạc (đó là công việc của tôi). Tôi đã thực hiện nhiều thao tác nhập dữ liệu (sao chép từ bản sao của sổ ghi chép trong phòng thí nghiệm cũ) và tôi liên tục tìm thấy các lỗi sao chép nhỏ mà những người khác mắc phải và cũng tìm thấy các mục dữ liệu khó đọc hoặc không thể đọc được - chủ yếu là do mực đã phai mờ theo thời gian. Tôi đang sử dụng ngữ cảnh để đưa ra 'dự đoán tốt nhất' về những gì dữ liệu nói và để lại dữ liệu hoàn toàn chỉ ra nếu tôi không chắc chắn lắm. Nhưng tôi cứ nghĩ về thực tế là mỗi khi dữ liệu được sao chép, tần suất lỗi chắc chắn sẽ tăng lên cho đến khi dữ liệu gốc bị mất hoàn toàn.
Vì vậy, điều này dẫn tôi đến một suy nghĩ: ngoài lỗi dụng cụ / đo lường và lỗi ghi âm, còn có một thành phần 'lỗi xử lý dữ liệu' cơ bản sẽ tăng theo thời gian và xử lý dữ liệu nhiều hơn (lưu ý phụ: đây có thể là chỉ là một cách khác để nêu luật thứ hai của Nhiệt động lực học, phải không? Entropy dữ liệu sẽ luôn tăng). Do đó, tôi tự hỏi liệu có nên đưa ra một loại 'hiệu chỉnh' nào đó để giải thích cho lịch sử cuộc sống của các tập dữ liệu (có gì đó giống với hiệu chỉnh Bonferroni) không? Nói cách khác, chúng ta có nên cho rằng các bộ dữ liệu cũ hơn hoặc nhiều bản sao hơn sẽ kém chính xác hơn và nếu vậy, chúng ta có nên điều chỉnh các phát hiện cho phù hợp không?
Nhưng sau đó, suy nghĩ khác của tôi là lỗi là một phần vốn có của việc thu thập dữ liệu và xử lý dữ liệu, và vì tất cả các kiểm tra thống kê đã được phát triển với dữ liệu trong thế giới thực, có lẽ các nguồn lỗi này đã được 'định giá' để phân tích?
Ngoài ra, một điểm đáng nói nữa là do lỗi dữ liệu là ngẫu nhiên, nên chúng có khả năng giảm sức mạnh của việc tìm kiếm nhiều hơn là cải thiện nó - nói cách khác, lỗi xử lý dữ liệu sẽ dẫn đến lỗi Loại 2, không phải lỗi Loại 1 . Vì vậy, trong nhiều bối cảnh, nếu bạn đang sử dụng dữ liệu cũ / nghi vấn mà vẫn tìm thấy hiệu ứng, điều đó sẽ làm tăng sự tin tưởng của bạn rằng hiệu ứng là có thật (vì nó đủ mạnh để tồn tại khi thêm lỗi ngẫu nhiên vào tập dữ liệu). Vì vậy, vì lý do đó, có lẽ 'hiệu chỉnh' nên đi theo một cách khác (tăng mức độ alpha cần thiết cho một 'tìm kiếm'), hoặc chỉ không gây rắc rối cho chúng tôi?
Dù sao, xin lỗi vì quá dài dòng và khó hiểu, tôi không thực sự chắc chắn làm thế nào để hỏi câu hỏi này chính xác hơn. Cám ơn mang với tôi.