Tôi dự tiệc muộn khoảng 1,5 năm, nhưng tôi nghĩ tôi chỉ đăng bài cho bất kỳ ai khác vấp phải điều này.
Tôi nghĩ rằng đặt cược tốt nhất của bạn là nội suy một hàm phân phối tích lũy từ dữ liệu bạn có. Điều này có thể gây ra một số lỗi nghiêm trọng và vẫy tay, đặc biệt nếu dữ liệu mẫu bạn cung cấp gần với phân phối mà bạn đang làm việc. Tuy nhiên, nó chắc chắn đánh bại việc tạo (và lưu trữ!) Một triệu điểm dữ liệu giả từ một bản phân phối mà bạn chỉ đoán ở nơi đầu tiên.
Để có được CDF, bạn sẽ cần tính xác suất tích lũy cho mỗi nhóm. Tôi giả sử luôn có độ trễ, vì vậy hãy lấy 0 làm giá trị tối thiểu của bạn với tần suất là 0. Để tìm giá trị CDF ở mỗi nhóm giới hạn trên, hãy sử dụng công thức
(sum of frequencies in bucket and previous buckets)/(sum of all frequencies)
Đối với dữ liệu mẫu bạn cung cấp, các điểm xác suất tích lũy sẽ là
{(0,0); (1;0.943); (3,0.969); (5,0.995); (7,0.999); (10,1)}
Bây giờ, cho finessing. Nếu bạn có một số hiểu biết thông thường về phân phối trông như thế nào, ví dụ: bạn nghĩ đâu đó khoảng 25% độ trễ nhỏ hơn 0,1 ms, bạn có thể thêm những trực giác này vào dữ liệu của mình. Nếu bạn không có ý tưởng gì về việc phân phối sẽ như thế nào, thì bạn có thể chỉ cần cuộn với những gì bạn có.
Từ đây, bạn có hai lựa chọn: (a) nội suy tuyến tính giữa các điểm bạn có hoặc (b) phù hợp với một hình thức chức năng, chẳng hạn như phân phối beta, cho dữ liệu của bạn. (a) đơn giản hơn vì không yêu cầu hồi quy; tuy nhiên, nó sẽ không cung cấp cho bạn một bức tranh chi tiết hơn những gì bạn đã có và việc tính toán tần số đòi hỏi một chút công thức kung fu của Excel. . tuy nhiên, nó yêu cầu hồi quy, yêu cầu bổ trợ Bộ giải. Tôi thích tùy chọn (b) vì nó mang lại cho bạn nhiều lợi ích nhất cho bạn (nghĩa là, nỗ lực).