Chúng ta có thể ước tính kích thước của tập con X của tập A không, bằng cách lấy mẫu ngẫu nhiên các tập con của A?


8

Hãy là một tập hợp hữu hạn và giả sử chúng ta muốn tính toán kích thước của một số tập con .chữ XAX

Động lực : Nếu chúng ta có thể tạo các phần tử của cách ngẫu nhiên, thì chúng ta có thể ước tính kích thước của bằng cách lấy mẫu ngẫu nhiên. Nghĩa là, chúng ta lấy mẫu ngẫu nhiên từ , nếu trong số chúng thuộc về , thì . Thật không may, cho những gì tôi làm, thường làlà đồ sộ và(trong khi đồ sộ) khá nhỏ đối với. Vì vậy, nếu tôi cố gắng thực hiện ước tính trên, tôi có thể nhận được , trong khi, không vô dụng, thực sự không thỏa mãn lắm.A A n A m X | X | / | Một | m / n | Một | | X | | Một | m = 0xAAnAmX|X|/|A|m/n|A||X||A|m=0

Vì vậy, tôi có một ý tưởng rằng tôi hy vọng sẽ đẩy nhanh quá trình này. Thay vì ném phi tiêu vào một bảng phi tiêu đồ sộ, tại sao tôi không ném bóng? Nghĩa là, thay vì lấy mẫu các yếu tố , chúng tôi tập con mẫu . Chắc chắn tôi sẽ có thể suy luận điều gì đó về mật độ trong từ thí nghiệm này.A X AxAAXA

Giả sử được trang bị một số liệu (tôi có ý nghĩ về khoảng cách Hamming). Với mọi hãy để là bóng kín của bán kính trong tâm tại . Vì chúng ta có thể lấy mẫu các phần tử cách ngẫu nhiên, chúng ta có thể lấy mẫu -balls một cách ngẫu nhiên.d ( x , y ) y A Y ( y ) = { x A : d ( x , y ) k } k A t x A k Y k ( t )Ad(x,y)yAY(y)={xA:d(x,y)k}kAtxAkYk(t)

Giả sử (a) mọi thuộc về chính xác cùng số lượng -ball và (b) mỗi -ball có cùng kích thước .k k rxAkkr

Bây giờ, giả sử tôi tạo -balls một cách ngẫu nhiên và giả sử. Có vẻ như chúng ta có thể ước tínhtheo cách tương tự, đó là .Y 1 , Y 2 , ... , Y n m = Σ n i = 1 | Y iX | | Một | | X | / | Một | mkY1,Y2,,Ynm=i=1n|YiX||A||X|/|A|mrn

Vì vậy, câu hỏi của tôi là:

Tôi có đúng không khi chúng ta có thể tính gần đúngcách này? Nếu vậy, tôi nghi ngờ tôi là người đầu tiên nghĩ về điều này, vậy có tên cho phương pháp này không?|X|

Tôi đã thực sự kiểm tra điều này trên một số bộ, và nó dường như phù hợp với những gì tôi yêu cầu.

Có bất kỳ nhược điểm nào đối với phương pháp này không? (ví dụ như nó kém chính xác hơn? tôi có cần nhiều mẫu hơn không?)


Tôi nghĩ bạn đã mắc một lỗi nhỏ trong đoạn thứ hai: . Mặt khác, những gì bạn đang làm về cơ bản là phát minh lại tích hợp Monte Carlo, tốt, phiên bản tập hợp con tôi chưa gặp, nhưng tôi không ngạc nhiên nếu nó đã được thực hiện. |X|/|A|m/n
Raskolnikov

Cảm ơn, vâng, đó là một sai lầm (trên thực tế, sau này cũng có một lỗi tương tự).
Douglas S. Stones

Câu trả lời:


3

OK, hãy thử đọc trang wikipedia để tích hợp Monte Carlo . Bạn sẽ thấy họ đề cập đến một phiên bản phân tầng. Sự phân tầng là thuật ngữ kỹ thuật trong thống kê cho những gì bạn cố gắng: chia nhỏ trong các tập hợp con (mẫu con). Tôi đoán các tài liệu tham khảo có thể giúp bạn thêm.


3

Đối với bất kỳ tập hợp con của , hãy để là xác suất bạn sẽ chọn nó trong mẫu của mình. Bạn đã mô tả một biến ngẫu nhiênA π ( Y )YAπ(Y)

f(Y)=|YX|.

Các tổng của trong dân số tập con của làAfA

τ(X)=YA|YX|=2|A|1|X|.

Từ một mẫu (có thay thế) các tập hợp con của , giả sử , Công cụ ước tính Hansen-Hurwitz có được ước tính không thiên vị của tổng số này làY 1 , Y 2 , ... , Y mAY1,Y2,,Ym

f^π=i=1m|YiX|π(Yi).

Chia số này chodo đó ước tính. Phương sai của là| X | / | Một | f π2|A|1|A||X|/|A|f^π

Var(f^π)=1mYAπ(Y)(|YX|π(Y)2|A|1|X|)2.

Chia số này cho mang lại phương sai lấy mẫu của. Cho , và quy trình lấy mẫu được đề xuất (chỉ định cho tất cả ), chọn giá trị (cỡ mẫu) mà phương sai ước lượng trở nên nhỏ chấp nhận được.| X | / | Một | A X π ( Y ) Y A m22(|A|1)|A|2|X|/|A|AXπ(Y)YAm


thật tuyệt, tôi đoán đây là câu trả lời! Tôi không biết Hansen-Hurwitz ...
robin girard

2

Tôi cho rằng biện pháp của bạn là hữu hạn. WLOG nó có thể là một xác suất.

Thủ tục đầu tiên bạn đề cập là ước tính xác suất thực nghiệm cũ tốt :

P^(YX)=|{xiX}|/n

(có ước tính montecarlo của một inetgral cũng là một cách giải thích tốt). Ở kích thước cao, nó không hoạt động vì có thể trống đối với A. điển hình như bạn đã nhận thấy, bạn cần thường xuyên hóa. Làm thế nào thường xuyên tinh vi bạn cần có liên quan đến kích thước của không gian của bạn.{xiX}

Một ý tưởng là phóng to hoặc thậm chí cho trọng số cho không nằm trong theo khoảng cách của nó với , đây là điều tôi nên gọi là ước tính xác suất hạt nhân (bằng cách tương tự với ước tính mật độ hạt nhân ):x i X XXxiXX

P^(YX)=1/(c(k)n)iK(d(xi,X)/k)

Trong đó là hạt nhân tích hợp với (trong trường hợp của bạn, nó có thể là nhưng hạt nhân gaussian có các đặc tính tốt) và là hằng số chuẩn hóa được chọn tốt (ví dụ: đó ).1 K ( x ) = 1 { x 1 } c ( k ) P ( Y A ) = 1K1K(x)=1{x1}c(k)P^(YA)=1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.