Bạn sẽ đánh dấu dữ liệu này là gian lận?


8

Giả sử bạn đã được cung cấp một số dữ liệu từ thiết kế khối ngẫu nhiên với 4 lần lặp lại và 23 lần điều trị. Sau khi kiểm tra dữ liệu ban đầu, bạn nhận thấy rằng trong 8 lần điều trị, tất cả các lần lặp lại đều giống hệt nhau, điều này rõ ràng là sai. Sau khi báo cáo vấn đề, bạn được thông báo rằng đó là do sự nhầm lẫn từ người chịu trách nhiệm về dữ liệu, người sau này sẽ gửi cho bạn "phiên bản chính xác" của dữ liệu. Phiên bản sửa chữa của dữ liệu sẽ giống như thế này:

Giá trị đại diện điều trị 
   1 5727.000
   2 54.000.000
   Một 3 58.000.000
   4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098 

Điều đầu tiên thu hút sự chú ý của tôi trong dữ liệu đó là thực tế là chỉ có tám phương pháp điều trị mà vấn đề được báo cáo không có bất kỳ phần thập phân nào (tất cả các phương pháp điều trị còn lại đều ổn). Vì vậy, tôi sẽ quyết định cung cấp cho họ cái nhìn gần hơn và trừ đi từng quan sát từ ý nghĩa mẫu của nó trong các phương pháp điều trị, tìm ra thứ gì đó như

Điều trị Rep Delta
   1 5727.000 +127
   Một 2 54.000.000 -200
   Một 3 58.000.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

Sau khi thấy rằng sự khác biệt là đối xứng xung quanh giá trị trung bình, tôi sẽ gọi ngay cho người chịu trách nhiệm cho dự án và báo cáo vấn đề. Tất nhiên, tôi cũng sẽ từ bỏ làm việc trong dự án đó.

Mặc dù bằng chứng khá hấp dẫn, nhưng sẽ rất tốt nếu đính kèm một xác suất vào báo cáo, chỉ để đưa ra ý tưởng về việc dữ liệu đó trông tệ đến mức nào. Vì vậy, tôi đã nghĩ về một cái gì đó như sau và tôi muốn biết nếu có bất kỳ lỗ hổng trong lý luận của tôi:

Chúng ta hãy nói rằng nếu dữ liệu là hợp pháp, sẽ là hợp lý khi giả định tính quy tắc cho loại dữ liệu đó, dựa trên kinh nghiệm từ phân tích trước đó của loại dữ liệu đó.

Vì vậy, chúng ta hãy xác định 4 IID biến ngẫu nhiên bình thường đối với mỗi người trong số bốn lần lặp lại trong mỗi lần điều trị: Phép đối xứng (với sai số 0,5) quan sát ở trên có thể được biểu thị dưới dạng sự kiện: A : - 0,5 < X 1 + X 2 - X 3 - X 4 < 0,5

XTôi~N(μX, σX);   Tôi= =1,2,3,4
Một:-0,5<X1+X2-X3-X4<0,5
Vẫn còn những cách tương đương khác trong đó các mẫu có thể được sắp xếp để thỏa mãn tính đối xứng (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3) vì vậy xác suất của tính đối xứng (S) sẽ là:
P(S)3*P(Một)

Sự bất bình đẳng đơn giản là vì tôi không muốn xóa giao lộ.

Nếu chúng ta xác định biến ngẫu nhiên Y như sau:

Y= =X1+X2-X3-X4

Nó sau từ đó:

Y~N(0, 2*σX)

Chúng ta hãy nói rằng từ phần dư của mô hình với dữ liệu đó, tôi đã ước tính σX

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

Như vậy, xác suất của S sẽ là:

P(S)0,001709752

Bởi vì sẽ không có hiệu ứng khối rõ ràng và dữ liệu sẽ đến từ một thử nghiệm ngẫu nhiên, sẽ hợp lý khi giả định tính độc lập thống kê. Chúng ta hãy giả sử rằng trong số 8 phương pháp điều trị nghi ngờ, 3 người có sự đối xứng này. Sau đó, giả sử tính độc lập, chúng ta có thể tính xác suất của sự kiện đó (hãy gọi nó là D) từ phân phối nhị thức:

D: 3 trên 8 phương pháp điều trị có sự đối xứng của các quan sát xung quanh giá trị trung bình của mẫu.

P(D)(số 83)p3(1-p)5

P(D)2.710-7

Tôi không phải là một nhà thống kê, vì vậy tôi muốn biết liệu có bất kỳ lỗ hổng nào trong lý do đó hay không và liệu bạn cũng sẽ báo cáo dữ liệu là lừa đảo.


9
Vấn đề đạo đức là tối quan trọng ở đây. Tôi đồng ý về thông tin này liên quan đến dữ liệu rất đáng ngờ và báo cáo nó như vậy; Tôi sẽ không bao giờ gọi là "gian lận" bởi vì đó là để người khác xác định sau khi điều tra và ở một số quốc gia có thể khiến bạn cởi mở với hành động pháp lý hoặc mối đe dọa của nó. Đối với việc đính kèm một ước tính xác suất, tôi sẽ rút lại từ đó. Các trường hợp rõ ràng (er) mà không có nó và chỉ về mọi giả định hoặc xấp xỉ là mở để thách thức.
Nick Cox

5
Đồng ý hoàn toàn với Nick Cox. Lưu ý rằng MỌI mẫu dữ liệu cụ thể rất khó xảy ra, do đó, ước tính xác suất sẽ chỉ gây nhầm lẫn với trường hợp nào là hoàn toàn rõ ràng và hấp dẫn của dữ liệu không sử dụng được (tôi sử dụng thuật ngữ đó hoặc một cái gì đó tương tự chứ không phải là lừa đảo).
zbicyclist

2
Bất kỳ mô hình cụ thể nào rất khó xảy ra ngẫu nhiên, nhưng không phải tất cả đều có khả năng được tạo ra bởi con người. Vì không có mô hình phổ quát về cách một người đàn ông sẽ 'tạo ra' dữ liệu như vậy, nên không có nhiều điểm trong tính toán xác suất. Tuy nhiên, bạn có thể xem xét mô tả đồ họa về tính đối xứng của dữ liệu. A cho mục đích trình diễn B để mang đến cho mọi người cảm giác con cá này bốc mùi đến mức nào.
Bernhard

1
Câu trả lời rất hữu ích! Trên thực tế, tôi không thể chỉ ra ý định của họ từ dữ liệu này. Điều duy nhất vượt quá sự nghi ngờ hợp lý là dữ liệu này không thể sử dụng được (tôi thích thuật ngữ đó).
Teo

Câu trả lời:


3

Vấn đề đạo đức là tối quan trọng ở đây. Tôi đồng ý về thông tin này liên quan đến dữ liệu rất đáng ngờ và báo cáo nó như vậy; Tôi sẽ không bao giờ gọi là "gian lận" bởi vì đó là để người khác xác định sau khi điều tra và ở một số quốc gia có thể khiến bạn cởi mở với hành động pháp lý hoặc mối đe dọa của nó. Đối với việc đính kèm một ước tính xác suất, tôi sẽ rút lại từ đó. Các trường hợp rõ ràng (er) mà không có nó và chỉ về mọi giả định hoặc xấp xỉ là mở để thách thức.


1
Tôi đã sao chép nhận xét này bởi @NickCox dưới dạng câu trả lời wiki cộng đồng vì nhận xét ít nhiều là câu trả lời cho câu hỏi này. Chúng tôi có một khoảng cách lớn giữa câu trả lời và câu hỏi. Ít nhất một phần của vấn đề là một số câu hỏi được trả lời trong các bình luận: nếu các bình luận trả lời câu hỏi là câu trả lời thay vào đó, chúng ta sẽ có ít câu hỏi chưa được trả lời hơn.
mkt - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.