Giả sử bạn đã được cung cấp một số dữ liệu từ thiết kế khối ngẫu nhiên với 4 lần lặp lại và 23 lần điều trị. Sau khi kiểm tra dữ liệu ban đầu, bạn nhận thấy rằng trong 8 lần điều trị, tất cả các lần lặp lại đều giống hệt nhau, điều này rõ ràng là sai. Sau khi báo cáo vấn đề, bạn được thông báo rằng đó là do sự nhầm lẫn từ người chịu trách nhiệm về dữ liệu, người sau này sẽ gửi cho bạn "phiên bản chính xác" của dữ liệu. Phiên bản sửa chữa của dữ liệu sẽ giống như thế này:
Giá trị đại diện điều trị 1 5727.000 2 54.000.000 Một 3 58.000.000 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
Điều đầu tiên thu hút sự chú ý của tôi trong dữ liệu đó là thực tế là chỉ có tám phương pháp điều trị mà vấn đề được báo cáo không có bất kỳ phần thập phân nào (tất cả các phương pháp điều trị còn lại đều ổn). Vì vậy, tôi sẽ quyết định cung cấp cho họ cái nhìn gần hơn và trừ đi từng quan sát từ ý nghĩa mẫu của nó trong các phương pháp điều trị, tìm ra thứ gì đó như
Điều trị Rep Delta 1 5727.000 +127 Một 2 54.000.000 -200 Một 3 58.000.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
Sau khi thấy rằng sự khác biệt là đối xứng xung quanh giá trị trung bình, tôi sẽ gọi ngay cho người chịu trách nhiệm cho dự án và báo cáo vấn đề. Tất nhiên, tôi cũng sẽ từ bỏ làm việc trong dự án đó.
Mặc dù bằng chứng khá hấp dẫn, nhưng sẽ rất tốt nếu đính kèm một xác suất vào báo cáo, chỉ để đưa ra ý tưởng về việc dữ liệu đó trông tệ đến mức nào. Vì vậy, tôi đã nghĩ về một cái gì đó như sau và tôi muốn biết nếu có bất kỳ lỗ hổng trong lý luận của tôi:
Chúng ta hãy nói rằng nếu dữ liệu là hợp pháp, sẽ là hợp lý khi giả định tính quy tắc cho loại dữ liệu đó, dựa trên kinh nghiệm từ phân tích trước đó của loại dữ liệu đó.
Vì vậy, chúng ta hãy xác định 4 IID biến ngẫu nhiên bình thường đối với mỗi người trong số bốn lần lặp lại trong mỗi lần điều trị: Phép đối xứng (với sai số 0,5) quan sát ở trên có thể được biểu thị dưới dạng sự kiện: A : - 0,5 < X 1 + X 2 - X 3 - X 4 < 0,5
Sự bất bình đẳng đơn giản là vì tôi không muốn xóa giao lộ.
Nếu chúng ta xác định biến ngẫu nhiên Y như sau:
Nó sau từ đó:
Chúng ta hãy nói rằng từ phần dư của mô hình với dữ liệu đó, tôi đã ước tính
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
Như vậy, xác suất của S sẽ là:
Bởi vì sẽ không có hiệu ứng khối rõ ràng và dữ liệu sẽ đến từ một thử nghiệm ngẫu nhiên, sẽ hợp lý khi giả định tính độc lập thống kê. Chúng ta hãy giả sử rằng trong số 8 phương pháp điều trị nghi ngờ, 3 người có sự đối xứng này. Sau đó, giả sử tính độc lập, chúng ta có thể tính xác suất của sự kiện đó (hãy gọi nó là D) từ phân phối nhị thức:
D: 3 trên 8 phương pháp điều trị có sự đối xứng của các quan sát xung quanh giá trị trung bình của mẫu.
Tôi không phải là một nhà thống kê, vì vậy tôi muốn biết liệu có bất kỳ lỗ hổng nào trong lý do đó hay không và liệu bạn cũng sẽ báo cáo dữ liệu là lừa đảo.