Đề xuất có nhiều sai sót trong đó. Đây có lẽ là lớn nhất.
Giả sử bạn đang thu thập dữ liệu và bạn thấy các giá trị này:
2,3,1
Giá trị trung bình, cho đến nay là .6/3=2
Sau đó đến một ngoại lệ:
2,3,1,1000
Vì vậy, bạn thay thế nó bằng có nghĩa là:
2,3,1,2
Số tiếp theo là tốt:
2,3,1,2,7
Bây giờ giá trị trung bình là 3. Đợi một phút, giá trị trung bình là 3, nhưng chúng tôi đã thay 1000 bằng giá trị trung bình là 2, chỉ vì nó xảy ra như giá trị thứ tư. Nếu chúng ta thay đổi thứ tự của các mẫu thì sao?
2,3,1,7,1000
Bây giờ giá trị trung bình trước 1000 là . Vậy chúng ta có nên thay 1000 bằng nghĩa đó không?(2+3+1+7)/4=13/4
Vấn đề là dữ liệu sai mà chúng ta đang thay thế thay cho 1000 phụ thuộc vào dữ liệu khác. Đó là một vấn đề nhận thức luận nếu các mẫu được cho là đại diện cho các phép đo độc lập.
Sau đó, bạn có một vấn đề rõ ràng là bạn không chỉ giữ lại dữ liệu không phù hợp với giả định của mình mà còn làm sai lệch dữ liệu. Khi một số kết quả không mong muốn xảy ra, bạn tăng và thay thế một giá trị giả. Điều này là sai vì được coi là số lượng mẫu. Bây giờ đại diện cho số lượng mẫu, cộng với số lượng giá trị fudge được thêm vào dữ liệu. Về cơ bản, nó phá hủy tính hợp lệ của tất cả các tính toán liên quan đến : ngay cả những tính toán không sử dụng các giá trị fudge. của bạn là một giá trị fudge quá!n n n nnnnnn
Về cơ bản, cắt xén các kết quả không phù hợp là một điều (và có thể được biện minh nếu nó được thực hiện một cách nhất quán theo thuật toán, thay vì theo sự thay đổi tâm trạng của người thử nghiệm).
Kết quả làm sai lệch hoàn toàn là phản đối trên cơ sở triết học, nhận thức luận và đạo đức.
Có thể có một số trường hợp giảm nhẹ, liên quan đến cách sử dụng kết quả. Ví dụ, giả sử rằng sự thay thế các ngoại lệ này bằng trung bình hiện tại là một phần của thuật toán của một số máy tính nhúng, cho phép nó thực hiện một hệ thống điều khiển vòng kín. (Nó lấy mẫu một số đầu ra hệ thống, sau đó điều chỉnh đầu vào để đạt được kiểm soát.) Mọi thứ đều là thời gian thực, và do đó, một cái gì đó phải được cung cấp trong một khoảng thời gian nhất định ở nơi thiếu dữ liệu. Nếu fudging này giúp khắc phục sự cố, và đảm bảo hoạt động trơn tru, thì tất cả đều tốt.
Đây là một ví dụ khác, từ điện thoại kỹ thuật số: PLC (che giấu mất gói). Crap xảy ra, và các gói bị mất, nhưng giao tiếp là thời gian thực. PLC tổng hợp các đoạn giọng nói giả dựa trên thông tin cao độ gần đây từ các gói được nhận chính xác. Vì vậy, nếu một người nói đang nói nguyên âm "aaa" và sau đó một gói bị mất, PLC có thể đệm gói bị thiếu bằng cách ngoại suy "aaa" trong thời lượng khung hình (giả sử 5 hoặc 10 mili giây hoặc bất cứ điều gì). "Aaa" giống như giọng nói của người nói. Điều này tương tự với việc sử dụng "trung bình" để thay thế cho các giá trị được coi là xấu. Đó là một điều tốt; nó tốt hơn âm thanh cắt vào và ra, và giúp cho sự thông minh.
Nếu sự xáo trộn dữ liệu là một phần của chương trình nói dối với mọi người để che đậy công việc thất bại, thì đó là một điều khác.
Vì vậy, chúng ta không thể nghĩ về nó một cách độc lập với ứng dụng: làm thế nào các số liệu thống kê được sử dụng? Thay thế sẽ dẫn đến kết luận không hợp lệ? Có ý nghĩa đạo đức?