(Tôi không có ý tưởng thực sự về việc gắn thẻ này vì tôi không phải là người thống kê và tôi không biết lĩnh vực này rơi vào lĩnh vực nào. Hãy thoải mái thêm các thẻ phù hợp hơn.)
Tôi làm việc cho một công ty sản xuất phần mềm phân tích dữ liệu và chúng tôi cần một bộ dữ liệu hợp lý để kiểm tra và giới thiệu sản phẩm mới nhất của chúng tôi. Chúng ta không thể lấp đầy cơ sở dữ liệu bằng đầu ra của trình tạo số ngẫu nhiên vì các đầu ra của chương trình sẽ trở nên vô nghĩa. Một trong những cách đơn giản nhất để có được dữ liệu đó là từ khách hàng; chúng tôi có một khối lượng lớn dữ liệu từ một thử nghiệm mà chúng tôi đã chạy. Bây giờ, rõ ràng chúng tôi không thể xuất bản dữ liệu thực tế của khách hàng, vì vậy chúng tôi cần thay đổi nó một chút, nhưng chúng tôi vẫn cần nó để hoạt động như dữ liệu thực.
Mục đích ở đây là lấy bộ dữ liệu của họ và áp dụng "fuzz" cho nó để nó không thể được công nhận là cụ thể của họ. Trí nhớ của tôi về lý thuyết thống kê tự nó hơi mờ, vì vậy tôi muốn chạy nó bởi các bạn:
Về cơ bản, dữ liệu chúng tôi có (từ khách hàng) tự nó là một mẫu của tất cả các dữ liệu tồn tại (trong nước hoặc trên thế giới). Điều tôi muốn biết là loại hoạt động nào có thể được áp dụng để làm cho mẫu không còn đại diện mạnh mẽ cho dân số mẫu của khách hàng, trong khi vẫn giữ cho nó đại diện đại diện cho dân số thế giới.
Để tham khảo, theo như chúng tôi biết, dữ liệu chúng tôi thường tuân theo các phân phối bình thường (Gaussian) thô.
Bộ dữ liệu ban đầu không có sẵn rộng rãi, nhưng về mặt lý thuyết có thể được nhận ra từ một số đặc điểm cụ thể theo vùng (chúng tôi không biết những đặc điểm đó là gì và không biết có ai làm ở mức đủ không, nhưng chúng tôi biết rằng các biến thể tồn tại từ nơi đến nơi). Dù sao, tôi quan tâm đến lý thuyết này hơn là thực tiễn - Tôi muốn biết liệu một thao tác có thể không xác định được (hoặc ít nhất là khó khăn) để xác định tập dữ liệu nguồn theo tham số X hay không, có ai có hoặc có thể làm việc không tham số X ở vị trí đầu tiên.
Cách tiếp cận mà tôi đã đưa ra là tách các bài đọc thành nhiều loại khác nhau, (không cần đưa ra nhiều, giả sử một nhóm có thể là "độ dài" hoặc "thời gian thực hiện X".) Đối với mỗi loại, hãy tính độ lệch chuẩn. Sau đó, với mỗi giá trị, thêm một giá trị ngẫu nhiên giữa giá trị dương và âm của (n * stddev) trong đó n là một số phân số mà tôi có thể sử dụng để điều chỉnh kết quả cho đến khi dữ liệu đủ "mờ". Tôi không muốn đơn giản áp dụng một phạm vi tĩnh (giả sử, ngẫu nhiên giữa 90% và 110% giá trị ban đầu) bởi vì một số giá trị thay đổi nhiều hơn hoặc ít hơn các giá trị khác - trong một số phép đo, trung bình là 10% , nhưng ở những người khác, nó làm cho bạn trở thành một ngoại lệ nghiêm trọng.
Điều này có đủ để che giấu nguồn dữ liệu gốc? Nếu không, bằng các biện pháp thống kê nào thì dữ liệu vẫn có thể được xác định và làm cách nào để che giấu những dữ liệu đó trong khi vẫn giữ dữ liệu kết quả mơ hồ?