Bootstrap: vấn đề quá mức


14

Giả sử người ta thực hiện cái gọi là bootstrap không tham số bằng cách vẽ các mẫu có kích thước n mỗi mẫu từ các quan sát n ban đầu với sự thay thế. Tôi tin rằng thủ tục này tương đương với việc ước tính hàm phân phối tích lũy theo cdf theo kinh nghiệm:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_feft

và sau đó lấy các mẫu bootstrap bằng cách mô phỏng quan sát từ cdf B ước tính liên tiếp.nB

Nếu tôi đúng trong vấn đề này, thì người ta phải giải quyết vấn đề quá mức, bởi vì cdf thực nghiệm có khoảng N tham số. Tất nhiên, không có triệu chứng, nó hội tụ đến cdf dân số, nhưng còn các mẫu hữu hạn thì sao? Ví dụ nếu tôi nói với bạn rằng tôi có 100 quan sát và tôi sẽ ước tính lũy như N(μ,σ2) với hai tham số, bạn sẽ không lo lắng. Tuy nhiên, nếu số lượng tham số lên tới 100, có vẻ như không hợp lý chút nào.

Tương tự như vậy, khi một người sử dụng một bội số hồi quy tuyến tính tiêu chuẩn, sự phân bố của số hạng sai số được ước tính như . Nếu một người quyết định chuyển sang bootstrapping phần dư, anh ta phải nhận ra rằng bây giờ có khoảng n tham số được sử dụng chỉ để xử lý phân phối thuật ngữ lỗi.N(0,σ2)n

Bạn có thể vui lòng hướng dẫn tôi đến một số nguồn giải quyết vấn đề này một cách rõ ràng hoặc cho tôi biết lý do tại sao nó không phải là vấn đề nếu bạn nghĩ rằng tôi đã hiểu sai.


Một cách để xem bootstrap "không tham số" này là nó chuyển đổi giả định tham số của tính quy tắc thành "số lượng quan tâm" trong một số lượng lớn, hữu hạn (ví dụ: trung bình của Tổng điều tra hồ sơ). Trên thực tế, bạn có thể chỉ ra rằng phiên bản bootstrap này dựa trên ước tính "khả năng tối đa" của mô hình đa phương thức, với 1 loại cho mỗi "loại" riêng biệt trong dân số.
xác suất

Câu trả lời:


2

tôi không hoàn toàn chắc chắn tôi hiểu câu hỏi của bạn đúng không ... tôi giả sử bạn quan tâm đến thứ tự hội tụ?

bởi vì cdf thực nghiệm có khoảng N tham số. Tất nhiên, không có triệu chứng, nó hội tụ đến cdf dân số, nhưng còn các mẫu hữu hạn thì sao?

Bạn đã đọc bất kỳ điều cơ bản về lý thuyết bootstrap? Vấn đề là nó trở nên khá hoang dã (về mặt toán học) khá nhanh.

Dù sao, tôi khuyên bạn nên có một cái nhìn vào

van der Vaart "Thống kê tiệm cận" chương 23.

Hội trường "Mở rộng Bootstrap và Edgeworth" (dài nhưng ngắn gọn và ít truyền tay hơn van der Vaart tôi muốn nói)

cho những điều cơ bản

"Phương pháp Bootstrap" của Chernick nhắm đến người dùng nhiều hơn là các nhà toán học nhưng có một phần về "nơi bootstrap thất bại".

Efron / Tibshirani cổ điển có rất ít lý do tại sao bootstrap thực sự hoạt động ...


4

N(μ,σ2)

Theo trực giác, bootstrapping từ các mẫu hữu hạn đánh giá thấp các đuôi nặng của phân phối cơ bản. Điều đó rõ ràng, vì các mẫu hữu hạn có phạm vi hữu hạn, ngay cả khi phạm vi phân phối thực sự của chúng là vô hạn hoặc thậm chí tệ hơn, có đuôi nặng. Vì vậy, hành vi của thống kê bootstrap sẽ không bao giờ "hoang dã" như thống kê ban đầu. Vì vậy, tương tự như việc tránh quá mức do có quá nhiều tham số trong hồi quy (tham số), chúng ta có thể tránh bị quá mức bằng cách sử dụng phân phối chuẩn vài tham số.

Chỉnh sửa trả lời các ý kiến: Hãy nhớ rằng bạn không cần bootstrap để ước tính cdf. Bạn thường sử dụng bootstrap để có được phân phối (theo nghĩa rộng nhất bao gồm lượng tử, khoảnh khắc, bất cứ thứ gì cần thiết) của một số thống kê. Vì vậy, bạn không nhất thiết phải có một vấn đề quá mức (về mặt "ước tính do dữ liệu hữu hạn của tôi trông quá đẹp so với những gì tôi sẽ thấy với phân phối hoang dã thực sự"). Nhưng khi nó bật ra (bởi bài báo được trích dẫn và bình luận của Frank Harrel bên dưới), việc có được một vấn đề quá mức như vậy có liên quan đến các vấn đề với ước tính tham số của cùng một thống kê.

Vì vậy, như câu hỏi của bạn ngụ ý, bootstrapping không phải là thuốc chữa bách bệnh chống lại các vấn đề với ước lượng tham số. Hy vọng rằng bootstrap sẽ giúp giải quyết các vấn đề về tham số bằng cách kiểm soát toàn bộ phân phối là giả mạo.


1
Hiện vẫn chưa rõ làm thế nào bootstrap quản lý để hoạt động với số lượng tham số hiệu quả liên quan đến bootstrap tương đương với kích thước mẫu. Tôi có một phỏng đoán: mục tiêu cuối cùng của bootstrap không phải là ước tính toàn bộ phân phối, mà là ước tính 1-2 thống kê phân phối. Do đó, mặc dù cdf theo kinh nghiệm được nhúng trong bootstrap bị quá nhiều, nhưng thống kê ước tính 1-2 kết thúc tốt đẹp bằng cách nào đó. Tôi đã hiểu đúng chưa?
James

4
Số lượng tham số hiệu quả không giống với kích thước mẫu. Phương sai của hàm phân phối tích lũy theo kinh nghiệm gần giống với phương sai của tham số phù hợp với phân phối khi phân phối có 4 tham số chưa biết để ước tính. Một lý do là các ước tính CDF theo kinh nghiệm buộc phải theo thứ tự tăng dần.
Frank Harrell

Điểm tốt. Bạn có thể cung cấp một tài liệu tham khảo?
James

Tôi ước tôi có một cái. Tôi đã thể hiện điều này trong quá khứ bằng mô phỏng Monte Carlo.
Frank Harrell

L2F^-FF^(x)-F(x)

0

Một nguồn của trực giác có thể là so sánh tốc độ hội tụ của các CDF tham số so với ECDF, đối với dữ liệu iid.

n-1/2tỷ lệ (không chỉ tại một điểm, mà là tối cao của sự khác biệt tuyệt đối so với toàn bộ miền của CDF): https://en.wikipedia.org/wiki/Dvoretzky%E2%80%93Kiefer%E2%80%93Wolfowitz_inequality http : //www.stat.cmu.edu/~larry/=stat705/Lecture12.pdf

Và bởi Berry-Esseen, CDF của phân phối lấy mẫu cho một giá trị trung bình duy nhất hội tụ đến giới hạn Bình thường của nó ở mức n-1/2tỷ lệ: https://en.wikipedia.org/wiki/ BlackBerry% E2% 80% 93Esseen_theorem (Đây không hoàn toàn là những gì chúng tôi muốn --- chúng tôi tự hỏi về cách CDF tham số ước tính của dữ liệu hội tụ, không phải về phân phối lấy mẫu. Nhưng trong trường hợp lý tưởng đơn giản nhất, trong đó dữ liệu là Bình thường vàσ được biết đến và chúng ta chỉ cần ước tính μ, Tôi tưởng tượng tốc độ hội tụ phải giống nhau đối với CDF của dữ liệu như đối với CDF trung bình?)

Vì vậy, theo một nghĩa nào đó, tốc độ bạn cần để có được nhiều mẫu là như nhau, cho dù bạn đang ước tính CDF bằng CDF theo kinh nghiệm hay liệu bạn đang ước tính trực tiếp một tham số bằng cách sử dụng công cụ ước tính loại trung bình mẫu. Điều này có thể giúp chứng minh nhận xét của Frank Harrell rằng "Số lượng tham số hiệu quả không giống với kích thước mẫu."

Tất nhiên, đó không phải là toàn bộ câu chuyện. Mặc dù tỷ lệ không khác nhau, các hằng số làm. Và có nhiều hơn với bootstrap không theo tỷ lệ so với ECDF --- bạn vẫn cần phải làm mọi thứ với ECDF một khi bạn ước tính nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.