Kỳ vọng của Tổng số K mà không thay thế


9

Cho số, trong đó giá trị của mỗi số là khác nhau, được ký hiệu là và xác suất chọn từng số lần lượt là .nv1,v2,...,vnp1,p2,...,pn

Bây giờ nếu tôi chọn số dựa trên xác suất đã cho, trong đó , kỳ vọng về tổng của các số gì? Lưu ý rằng lựa chọn là không thay thế, do đó, số không thể liên quan đến số trùng lặp. Tôi hiểu rằng nếu lựa chọn là thay thế, thì kỳ vọng tổng của các số bằng , trong đóKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

Hơn nữa, những gì về kỳ vọng về phương sai của các số ?K

Tôi là một sinh viên tiến sĩ CS đang làm việc về một vấn đề dữ liệu lớn và tôi không có bất kỳ nền tảng thống kê nào. Tôi hy vọng rằng ai đó có thể cho tôi một công thức như câu trả lời. Tuy nhiên, nếu câu trả lời quá phức tạp để được mô tả bằng một công thức hoặc tính toán chuyên sâu phải được tham gia, một câu trả lời gần đúng là hoàn toàn chấp nhận được.

Bạn có thể giả sử ở đây là khá lớn, và xác suất có thể thay đổi rất nhiều. Trong thực tế, các giá trị của các xác suất đó đến từ nhật ký truy vấn, ghi lại một loạt các truy vấn tổng hợp. Vấn đề là tần số của mỗi số liên quan đến các truy vấn có thể khá sai lệch, nghĩa là một số hiếm khi được truy vấn, trong khi một số được truy vấn rất thường xuyên. Bạn có thể giả sử phân phối xác suất là phân phối bình thường, phân phối zipf hoặc bất kỳ giải pháp thay thế hợp lý nào khác.n

Phân phối giá trị chỉ là một tập hợp con liền kề của bất kỳ phân phối có thể. Nói cách khác, nếu bạn có một biểu đồ đại diện cho một phân phối nhất định, tất cả các số liên quan đến vấn đề này là tất cả các số trong một nhóm.

Về giá trị của K, bạn có thể cho rằng nó luôn nhỏ hơn số phần tử được truy vấn thường xuyên.


3
Kỳ vọng về phương sai của tổng sẽ khác nhau mà không thay thế; bạn sẽ cần một hệ số hiệu chỉnh dân số hữu hạn nếu không có sự thay thế. (Để thấy điều này bằng trực giác, lưu ý rằng nếu K = n phương sai của tổng bằng không, bởi vì nó sẽ luôn luôn được cùng một số;. Như vậy là K tiếp cận n phương sai của tổng sẽ thấp hơn)
zbicyclist

1
Câu hỏi này có thể phức tạp hơn nó có vẻ. Hãy xem xét trường hợp và . Tổng giá trị dự kiến ​​của hai giá trị được rút ra thay thế là , gấp đôi tổng giá trị dự kiến ​​của một giá trị; nhưng tổng số dự kiến ​​của hai giá trị được rút ra mà không thay thế rõ ràng là ngoại trừ khi . n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber

1
@zbicyclist Có lẽ tôi không nói rõ vấn đề. Trong kịch bản của tôi, nếu K = N, thì phương sai của các số K đó sẽ là phương sai của dân số nói chung chứ không phải là 0.
SciPione

1
(1) Đây không giống như một câu hỏi tự học đối với tôi: nó giống như một vấn đề được áp dụng thực sự trong xác suất. (2) có thể lớn đến mức nào? Các giải pháp chính xác trông không khả thi trừ khi tất cả các tập hợp con có thể được liệt kê. (3) Nếu có thể lớn hơn hoặc hơn, loại trừ phép liệt kê nhanh, bạn có thể nói gì về ? Chẳng hạn, chúng có thể thay đổi hay tất cả chúng sẽ khá gần với ? Điều này có thể thông báo những nỗ lực để tìm câu trả lời gần đúng. nn20pi1/n
whuber

1
Cảm ơn các chỉnh sửa. Bạn càng có thể cho chúng tôi biết về , , và thì càng tốt. Chẳng hạn, nếu thì các công thức lấy mẫu với sự thay thế phải là xấp xỉ tốt (vì rất ít giá trị, nếu có, sẽ được chọn nhiều lần). Tôi tin rằng các trường hợp khó nhất là khi có một loạt các giá trị của - vì vậy bạn không thể thay thế hầu hết chúng bằng số không và bằng cho số lượng đáng kể của - và . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Câu trả lời:


2

Đây có lẽ là bản chất của một câu trả lời rằng, trong khi chính xác, có lẽ không hữu ích. Horvitz và Thompson (1952) cung cấp kết quả bao quát tình trạng này nói chung. Những kết quả này được đưa ra dưới dạng các biểu thức tổ hợp mà người ta có thể mong đợi.

Để phù hợp với ký hiệu của chúng, và cũng để tương ứng tốt hơn với ký hiệu được sử dụng rộng rãi hơn, hãy để tôi xác định lại một số lượng. Gọi là số phần tử trong quần thể và là cỡ mẫu.Nn

Đặt , , đại diện cho các phần tử của dân số, với các giá trị đã cho , và xác suất của lựa chọn . Đối với một mẫu nhất định có kích thước , hãy để các giá trị quan sát trong mẫu là .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Điều mong muốn là giá trị trung bình và phương sai của tổng mẫu

i=1nvi.

Như đã đề cập trong các nhận xét, xác suất chọn một mẫu cụ thể được vẽ theo thứ tự đó là trong đó xác suất ban đầu của việc vẽ được đưa ra bởi , xác suất thứ hai của việc vẽ là có điều kiện để loại bỏ khỏi dân số, v.v. Vì vậy, mỗi đơn vị tiếp theo rút ra kết quả trong một phân phối xác suất mới cho đơn vị tiếp theo (do đó, việc lựa chọn các chữ cái riêng khác nhau, vì mỗi đơn vị đại diện cho một phân phối khác nhau.)s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Có mẫu có kích thước chứa trong toàn bộ dân số. Lưu ý rằng điều này có tính đếnhoán vị của mẫu.

S(i)=n!(N1n1)
nuin!

Đặt biểu thị một mẫu cụ thể có kích thước bao gồm . Sau đó, xác suất chọn phần tử được đưa ra bởi trong đó phép tính tổng nằm trên tập kích thước của tất cả các mẫu có thể có kích thước có chứa . (Tôi đã thay đổi ký hiệu một chút từ tờ giấy vì nó có vẻ khó hiểu với tôi.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

Tương tự, xác định là số lượng mẫu chứa cả và . Sau đó, chúng ta có thể xác định xác suất của một mẫu chứa cả trong đó phép tính tổng nằm trên tập kích thước trong tất cả các mẫu có thể có kích thước có chứa và .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Giá trị mong đợi sau đó được dẫn xuất là

E(i=1nvi)=i=1NP(ui)Vi.

Mặc dù phương sai không được dẫn xuất rõ ràng trong bài báo, nó có thể được lấy từ các lần xuất hiện của thời điểm và các sản phẩm chéo q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

Nói cách khác, có vẻ như người ta sẽ cần phải trải qua tất cả các tập hợp con có thể để thực hiện các tính toán này. Có lẽ điều này có thể được thực hiện cho các giá trị nhỏ hơn của , mặc dù.n

Horvitz, DG và Thompson, DJ (1952) Một khái quát về lấy mẫu mà không cần thay thế từ một vũ trụ hữu hạn. Tạp chí của Hiệp hội Thống kê Hoa Kỳ 47 (260): 663-685.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.