Cho số, trong đó giá trị của mỗi số là khác nhau, được ký hiệu là và xác suất chọn từng số lần lượt là .
Bây giờ nếu tôi chọn số dựa trên xác suất đã cho, trong đó , kỳ vọng về tổng của các số gì? Lưu ý rằng lựa chọn là không thay thế, do đó, số không thể liên quan đến số trùng lặp. Tôi hiểu rằng nếu lựa chọn là thay thế, thì kỳ vọng tổng của các số bằng , trong đó
Hơn nữa, những gì về kỳ vọng về phương sai của các số ?
Tôi là một sinh viên tiến sĩ CS đang làm việc về một vấn đề dữ liệu lớn và tôi không có bất kỳ nền tảng thống kê nào. Tôi hy vọng rằng ai đó có thể cho tôi một công thức như câu trả lời. Tuy nhiên, nếu câu trả lời quá phức tạp để được mô tả bằng một công thức hoặc tính toán chuyên sâu phải được tham gia, một câu trả lời gần đúng là hoàn toàn chấp nhận được.
Bạn có thể giả sử ở đây là khá lớn, và xác suất có thể thay đổi rất nhiều. Trong thực tế, các giá trị của các xác suất đó đến từ nhật ký truy vấn, ghi lại một loạt các truy vấn tổng hợp. Vấn đề là tần số của mỗi số liên quan đến các truy vấn có thể khá sai lệch, nghĩa là một số hiếm khi được truy vấn, trong khi một số được truy vấn rất thường xuyên. Bạn có thể giả sử phân phối xác suất là phân phối bình thường, phân phối zipf hoặc bất kỳ giải pháp thay thế hợp lý nào khác.
Phân phối giá trị chỉ là một tập hợp con liền kề của bất kỳ phân phối có thể. Nói cách khác, nếu bạn có một biểu đồ đại diện cho một phân phối nhất định, tất cả các số liên quan đến vấn đề này là tất cả các số trong một nhóm.
Về giá trị của K, bạn có thể cho rằng nó luôn nhỏ hơn số phần tử được truy vấn thường xuyên.