Tại sao trung bình mỗi mẫu bootstrap chứa khoảng hai phần ba quan sát?


42

Tôi đã chạy qua khẳng định rằng mỗi mẫu bootstrap (hoặc cây được đóng bao) sẽ chứa trung bình khoảng số quan sát.2/3

Tôi hiểu rằng cơ hội không được chọn trong bất kỳ rút ra nào từ mẫu có thay thế là , có khả năng không được chọn khoảng .nn(11/n)n1/3

Giải thích toán học cho lý do tại sao công thức này luôn cho ?1/3


10
Tôi tin rằng đây là nguồn gốc của trong quy tắc bootstrap 632+. .632
gung - Phục hồi Monica

Câu trả lời:


29

Về cơ bản, vấn đề là chỉ ra rằng (và tất nhiên, e ^ {- 1} = 1 / e \ 1/3 , ít nhất là rất đại khái).limn(11/n)n=e1
e1=1/e1/3

Nó không hoạt động ở n rất nhỏ n- ví dụ: tại n=2 , (11/n)n=14 . Nó vượt qua 13 tại n=6 , vượt qua 0.35 tại n=110.366 bởi n=99 . Khi bạn vượt quá n=11 , 1e là một xấp xỉ tốt hơn so với 13 .

nhập mô tả hình ảnh ở đây

Đường đứt nét màu xám nằm ở 13 ; đường màu đỏ và màu xám nằm ở 1e .

Thay vì hiển thị một dẫn xuất chính thức (có thể dễ dàng tìm thấy), tôi sẽ đưa ra một phác thảo (đó là một đối số trực quan, bằng tay) về lý do tại sao một kết quả chung hơn (hơi) hơn:

ex=limn(1+x/n)n

(Nhiều người coi đây là định nghĩa của , nhưng bạn có thể chứng minh nó từ các kết quả đơn giản hơn, chẳng hạn như xác định .)exp(x)elimn(1+1/n)n

Sự thật 1: Điều này xuất phát từ các kết quả cơ bản về quyền hạn và lũy thừaexp(x/n)n=exp(x)

Sự thật 2: Khi lớn, Điều này diễn ra sau khi mở rộng chuỗi cho .nexp(x/n)1+x/nex

(Tôi có thể đưa ra các đối số đầy đủ hơn cho mỗi trong số này nhưng tôi cho rằng bạn đã biết chúng)

Thay thế (2) trong (1). Làm xong. (Để điều này hoạt động như một cuộc tranh luận chính thức hơn sẽ mất một số công việc, bởi vì bạn phải chứng minh rằng các điều khoản còn lại trong Sự kiện 2 không đủ lớn để gây ra vấn đề khi được đưa lên quyền lực . Nhưng đây là trực giác thay vì bằng chứng chính thức.)n

[Hoặc, chỉ cần đưa chuỗi Taylor cho để đặt hàng đầu tiên. Cách tiếp cận dễ dàng thứ hai là lấy phần mở rộng nhị thức của và lấy giới hạn theo kỳ hạn, cho thấy nó đưa ra các điều khoản trong chuỗi cho .]exp(x/n)(1+x/n)nexp(x/n)

Vì vậy, nếu , chỉ cần thay thế .ex=limn(1+x/n)nx=1

Ngay lập tức, chúng tôi có kết quả ở đầu câu trả lời này,limn(11/n)n=e1


Như gung chỉ ra trong các bình luận, kết quả trong câu hỏi của bạn là nguồn gốc của quy tắc bootstrap 632

vd

Efron, B. và R. Tibshirani (1997),
"Những cải tiến về kiểm chứng chéo: Phương pháp Bootstrap .632+",
Tạp chí của Hiệp hội thống kê Mỹ Vol. 92, số 438. (tháng 6), trang 548-560


41

Chính xác hơn, mỗi mẫu bootstrap (hoặc cây được đóng gói) sẽ chứa của mẫu.11e0.632

Chúng ta hãy xem cách bootstrap hoạt động. Chúng tôi có một mẫu ban đầu với mục trong đó. Chúng tôi vẽ các vật phẩm thay thế từ bộ gốc này cho đến khi chúng tôi có một bộ kích thước .x1,x2,xnnn

Từ đó, xác suất chọn một mục bất kỳ (giả sử ) trong lần rút thăm đầu tiên là . Do đó, xác suất không chọn mục đó là . Đó chỉ là trận hòa đầu tiên; có tổng cộng rút, tất cả đều là độc lập, do đó xác suất không bao giờ chọn mục này trong bất kỳ lần rút nào là .x11n11nn(11n)n

Bây giờ, hãy nghĩ về những gì xảy ra khi càng lớn hơn. Chúng ta có thể đạt giới hạn khi tiến tới vô cực, sử dụng các thủ thuật tính toán thông thường (hoặc Wolfram Alpha): nn

limn(11n)n=1e0.368

Đó là xác suất của một mặt hàng không được chọn. Trừ nó từ một để tìm xác suất của mục được chọn, cung cấp cho bạn 0,632.


5

Lấy mẫu với sự thay thế có thể được mô hình hóa như một chuỗi các thử nghiệm nhị thức trong đó "thành công" là một ví dụ được chọn. Đối với tập dữ liệu gốc của trường hợp, xác suất "thành công" là và xác suất "thất bại" là . Đối với kích thước mẫu là , tỷ lệ chọn một thể hiện chính xác lần được đưa ra bởi phân phối nhị thức:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

Trong trường hợp cụ thể của mẫu bootstrap, cỡ mẫu bằng số lượng phiên bản . Để tiếp cận vô hạn, chúng ta nhận được:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Nếu tập dữ liệu ban đầu của chúng tôi lớn, chúng tôi có thể sử dụng công thức này để tính xác suất để một thể hiện được chọn chính xác lần trong một mẫu bootstrap. Với , xác suất là , hoặc khoảng . Xác suất của một thể hiện được lấy mẫu ít nhất một lần là .xx=01/e0.36810.368=0.632

Không cần phải nói, tôi đã hết sức sử dụng bút và giấy và thậm chí không cân nhắc sử dụng Wolfram Alpha.


3

Chỉ cần thêm vào câu trả lời của @ retsreg, điều này cũng có thể được thể hiện khá dễ dàng thông qua mô phỏng số trong R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

Điều này có thể dễ dàng nhìn thấy bằng cách đếm. Có bao nhiêu tổng số mẫu có thể? n ^ n. Có bao nhiêu KHÔNG chứa một giá trị cụ thể? (n-1) ^ n. Xác suất của một mẫu không có giá trị cụ thể - (1-1 / n) ^ n, tức là khoảng 1/3 trong giới hạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.