Chúng ta có thể sử dụng các mẫu bootstrap nhỏ hơn mẫu ban đầu không?


12

Tôi muốn sử dụng bootstrapping để ước tính khoảng tin cậy cho các tham số ước tính từ bộ dữ liệu bảng điều khiển với N = 250 hãng và T = 50 tháng. Việc ước tính các tham số tốn kém về mặt tính toán (vài ngày tính toán) do sử dụng bộ lọc Kalman và ước lượng phi tuyến phức tạp. Do đó, việc vẽ (có thay thế) B (trong hàng trăm hoặc nhiều hơn) các mẫu M = N = 250 công ty từ mẫu ban đầu và ước tính các tham số B lần là không thể tính toán được, mặc dù đây là phương pháp cơ bản để khởi động.

Vì vậy, tôi đang xem xét sử dụng M nhỏ hơn (ví dụ 10) cho các mẫu bootstrap (thay vì kích thước đầy đủ N = 250), được rút ngẫu nhiên với sự thay thế từ các công ty ban đầu, sau đó mở rộng ma trận hiệp phương sai ước tính bootstrap của các tham số mô hình với (ví dụ ở trên 1/25) để tính ma trận hiệp phương sai cho các tham số mô hình ước tính trên mẫu đầy đủ.1NM

Sau đó, khoảng tin cậy mong muốn có thể được xấp xỉ dựa trên giả định quy tắc hoặc theo kinh nghiệm đối với mẫu nhỏ hơn được thu nhỏ bằng cách sử dụng quy trình tương tự (ví dụ: được thu nhỏ theo hệ số .1NM

Liệu cách giải quyết này có ý nghĩa? Có kết quả lý thuyết để biện minh cho điều này? Bất kỳ lựa chọn thay thế để giải quyết thách thức này?

Câu trả lời:


4

Câu hỏi này đã được hỏi từ lâu, nhưng tôi sẽ đăng một câu trả lời trong trường hợp có ai phát hiện ra nó trong tương lai. Nói tóm lại, câu trả lời là có: bạn có thể thực hiện việc này trong nhiều cài đặt và bạn có lý khi sửa lỗi thay đổi kích thước mẫu bằng . Cách tiếp cận này thường được gọi là out of boostrap, và nó hoạt động trong hầu hết các cài đặt mà bootstrap `` truyền thống '' 'thực hiện, cũng như một số cài đặt không hoạt động.MNMN

Lý do tại sao nhiều đối số thống nhất bootstrap sử dụng các công cụ ước tính có dạng , trong đó là các biến ngẫu nhiên và là một số tham số của phân phối cơ bản. Ví dụ: đối với trung bình mẫu, và .1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

Nhiều bằng chứng về tính nhất quán của bootstrap cho rằng, như , đã đưa ra một số mẫu hữu hạn và ước tính điểm liên quan , trong đó được rút ra từ phân phối cơ bản thực sự và được vẽ bằng thay thế từ .N{x1,,xN}μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

Tuy nhiên, chúng tôi cũng có thể sử dụng các mẫu có độ dài ngắn hơn và xem xét công cụ ước tính Hóa ra, như , công cụ ước tính ( ) có cùng phân phối giới hạn như trên trong hầu hết các cài đặt trong đó ( ) giữ và một số nơi nó không. Trong trường hợp này, ( ) và ( ) có cùng phân phối giới hạn, thúc đẩy hệ số hiệu chỉnh trong ví dụ độ lệch chuẩn mẫu.M<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

Những lập luận này là tất cả các tiệm cận và chỉ giữ trong giới hạn . Để làm việc này, điều quan trọng là không chọn quá nhỏ. Có một số lý thuyết (ví dụ Bickel & Sakov dưới đây) về cách chọn tối ưu là hàm của để có kết quả lý thuyết tốt nhất, nhưng trong trường hợp của bạn, tài nguyên tính toán có thể là yếu tố quyết định.M,NM MN

Đối với một số trực giác: trong nhiều trường hợp, chúng tôi có là , sao cho có thể được nghĩ giống như một trong số bootstrap với và (Tôi đang sử dụng chữ thường để tránh nhầm lẫn ký hiệu ). Theo cách này, việc mô phỏng phân phối ( ) bằng cách sử dụng một bootstrap ngoài với là một việc cần làm hơn 'đúng' so với truyền thống ( ngoàiμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=3MNM<NNN) Tốt bụng. Một phần thưởng bổ sung trong trường hợp của bạn là nó ít tốn kém về mặt tính toán để đánh giá.

Như bạn đã đề cập, Politis và Romano là bài báo chính. Tôi tìm thấy Bickel et al (1997) bên dưới một cái nhìn tổng quan tuyệt vời về trong số bootstrap.MN

Nguồn :

Bickel, F Goetze, WR van Zwet. 1997. Lấy mẫu lại ít hơn quan sát: lãi, lỗ và biện pháp khắc phục tổn thất. Statistica Sinica.n

Bickel, một Sakov. Năm 2008, về việc lựa chọn trong ouf của bootstrap và giới hạn tự tin cho extrema. Statistica Sinica.mmn


3

Sau khi đọc thêm về chủ đề này, có vẻ như có lý thuyết đã được thiết lập theo "lấy mẫu phụ" cho phép thực hiện loại ước lượng khoảng tin cậy này. Tài liệu tham khảo chính là "Politis, DN; Romano, JP (1994). Vùng tin cậy mẫu lớn dựa trên các mẫu phụ theo giả định tối thiểu. Biên niên sử Thống kê, 22, 2031-2050."

Ý tưởng là vẽ các mẫu có kích thước M <N, "không thay thế" cho từng mẫu (nhưng thay thế trên các mẫu có kích thước B khác nhau), từ N điểm dữ liệu ban đầu (chuỗi trong trường hợp của tôi) và ước tính khoảng tin cậy của tham số quan tâm bằng cách sử dụng các mẫu này và phương pháp bootstrap phổ biến. Sau đó, chia tỷ lệ khoảng tin cậy dựa trên tốc độ thay đổi của phương sai phân phối cơ bản của tham số với các thay đổi trong M. Tỷ lệ đó là 1 / M trong nhiều cài đặt chung, nhưng có thể ước tính theo kinh nghiệm nếu chúng tôi lặp lại quy trình với một vài M khác nhau các giá trị và xem xét các thay đổi về kích thước của các phạm vi liên phần trăm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.