Tính khoảng tin cậy thông qua bootstrap trên các quan sát phụ thuộc


12

Bootstrap, ở dạng tiêu chuẩn của nó, có thể được sử dụng để tính khoảng tin cậy của các số liệu thống kê ước tính với điều kiện là các quan sát là iid. I. Visser et al. trong " Khoảng tin cậy cho các tham số mô hình Markov ẩn ", đã sử dụng một bootstrap tham số để tính toán các TCTD cho các tham số HMM. Tuy nhiên, khi chúng ta điều chỉnh HMM trên chuỗi quan sát, chúng ta đã cho rằng các quan sát là phụ thuộc (ngược lại với các mô hình hỗn hợp).

Tôi có hai câu hỏi:

  1. Giả định iid làm gì với bootstrap?
  2. Chúng ta có thể bỏ qua yêu cầu iid trong bootstrap tham số không?

Visser et al. phương pháp ngắn gọn như sau:

  1. Giả sử chúng ta có một chuỗi quan sát Y=o1,o2,...,on là kết quả của việc lấy mẫu một HMM với bộ thật nhưng chưa biết các thông số θ= =θ1,θ2,...,θtôi .
  2. Các tham số có thể được ước tính bằng thuật toán EM:θ^= =θ^1,θ^2,...,θ^tôi
  3. Sử dụng HMM ước tính để tạo mẫu bootstrap có kích thước :nY*= =o1*,o2*,...,on*
  4. Ước tính các tham số của HMM theo mẫu bootstrap:θ^*= =θ^1*,θ^2*,...,θ^tôi*
  5. Lặp lại các bước 3 và 4 cho lần (ví dụ = 1000) dẫn đến ước tính bootstrap :BBBθ^(1),θ^(2),...,θ^(B)
  6. Tính toán CI của từng tham số ước tính bằng cách sử dụng phân phối trong các ước tính bootstrap.θ^iθ^i

Ghi chú (phát hiện của tôi):

  1. Phương pháp phân vị nên được sử dụng để tính toán các TCTD để có phạm vi bảo hiểm chính xác (tính chuẩn là một giả định xấu).
  2. Xu hướng của phân phối bootstrap nên được sửa chữa. Có nghĩa là trung bình phân phối của nên được chuyển sangθ^iθ^Tôi

Câu hỏi đầu tiên nói cách khác: ảnh hưởng của giả định iid trên bootstrap là gì? Đây có phải là một giả định đơn giản hóa có thể được loại bỏ bằng cách làm theo một thuật toán hoặc công thức phức tạp hơn không?
Sadeghd

Câu trả lời:


11

Câu trả lời ngắn: 1. Nó đơn giản hóa nó. (Thành thật mà nói, tôi đã không nhận được câu hỏi). 2. Không, bạn không bao giờ có thể bỏ qua nó, vì thiếu iid có hậu quả ngay lập tức đối với phương sai của bất cứ điều gì bạn đang ước tính.

Câu trả lời trung bình: Khá nhiều vấn đề trung tâm với bootstrap là, 'Liệu thủ tục đề xuất có tái tạo các tính năng của dữ liệu không?' . Vi phạm giả định iid là một vấn đề lớn: dữ liệu của bạn phụ thuộc, bạn (rất có thể) có ít thông tin trong dữ liệu của bạn hơn so với mẫu iid có cùng kích thước và nếu bạn chạy bootstrap ngây thơ (lấy mẫu lại cá nhân quan sát), các lỗi tiêu chuẩn bạn nhận được từ nó sẽ quá nhỏ. Quy trình đề xuất phá vỡ vấn đề thiếu tính độc lập bằng cách nắm bắt (hoặc ít nhất là cố gắng nắm bắt) sự phụ thuộc trong cấu trúc mô hình và các tham số. Nếu thành công, mỗi mẫu bootstrap sẽ tái tạo các tính năng của dữ liệu, nếu cần.

Câu trả lời dài:Có nhiều lớp giả định liên quan đến bootstrap và ngay cả trong trường hợp đơn giản nhất có thể (dữ liệu iid, ước tính giá trị trung bình), bạn phải đưa ra ít nhất ba giả định: (1) thống kê quan tâm là một chức năng trơn tru của dữ liệu (đúng trong trường hợp trung bình, không đúng lắm ngay cả trong trường hợp phần trăm, hoàn toàn tắt với các công cụ ước tính khớp hàng xóm gần nhất); (2) phân phối mà bạn bootstrap "gần" với phân phối dân số (hoạt động tốt trong trường hợp dữ liệu iid; có thể không hoạt động tốt trong trường hợp dữ liệu phụ thuộc, về cơ bản bạn chỉ có một quỹ đạo = một quan sát trong trường hợp của chuỗi thời gian, và bạn phải viện dẫn các giả định bổ sung như sự đứng yên và pha trộn để phân tầng quan sát đơn lẻ này thành một dân số gần đúng); (3) lấy mẫu bootstrap Monte Carlo của bạn là một xấp xỉ đủ gần với bootstrap hoàn chỉnh với tất cả các mẫu con có thể (độ chính xác từ việc sử dụng Monte Carlo so với bootstrap hoàn chỉnh ít hơn nhiều so với độ không chắc chắn mà bạn đang cố gắng nắm bắt). Trong trường hợp bootstrap tham số, bạn cũng đưa ra một giả định rằng (4) mô hình của bạn giải thích hoàn hảo tất cả các tính năng của dữ liệu.

y=xβ+ϵ[ϵ]=exp[xγ]σ¯2(XX)1σ¯21/niexp[xiγ](XX)1exp[xiγ]xixi(XX)1). Vì vậy, nếu bạn muốn có một giải pháp bootstrap đầy đủ tham số, bạn sẽ phải phù hợp với mô hình cho sự không đồng nhất cùng với mô hình cho trung bình. Và nếu bạn nghi ngờ nối tiếp hoặc loại tương quan khác, bạn cũng sẽ phải phù hợp với mô hình đó. (Xem, hương vị không phân phối không tham số của bootstrap bây giờ đã không còn nữa, vì bạn đã thay thế giọng nói của dữ liệu bằng giọng nói tổng hợp của mô hình của bạn.)

Phương pháp bạn mô tả hoạt động xung quanh giả định iid bằng cách tạo một mẫu hoàn toàn mới. Vấn đề lớn nhất với bootstrap dữ liệu phụ thuộc là tạo mẫu có các mẫu phụ thuộc đủ gần với các mẫu trong dữ liệu gốc. Với chuỗi thời gian, bạn có thể sử dụng khối bootstraps; với dữ liệu được nhóm, bạn bootstrap toàn bộ cụm; với hồi quy heteroskedastic, bạn phải sử dụng bootstraps hoang dã (đó là một ý tưởng tốt hơn bootstrap của phần dư, ngay cả khi bạn đã trang bị mô hình heteroskedasticty cho nó). Trong bootstrap khối, bạn phải đưa ra một phỏng đoán có giáo dục (hay nói cách khác là có lý do chính đáng để tin) rằng các phần xa của chuỗi thời gian là độc lập, do đó tất cả các cấu trúc tương quan được nắm bắt bởi 5 hoặc 10 liền kề quan sát tạo thành khối. Vì vậy, thay vì ghép lại các quan sát từng cái một, hoàn toàn bỏ qua cấu trúc tương quan của chuỗi thời gian, bạn lấy lại chúng theo các khối, hy vọng rằng điều này sẽ tôn trọng cấu trúc tương quan. Bootstrap tham số mà bạn đề cập nói: "Thay vì loay hoay với dữ liệu và lắp ráp những con búp bê mới từ những mảnh cũ, tại sao tôi không đóng dấu toàn bộ Barbie đúc cho bạn? Tôi đã tìm ra loại nào Barbies bạn thích, và tôi hứa tôi cũng sẽ làm cho bạn một người bạn thích. " Thay vì loay hoay với dữ liệu và lắp ráp những con búp bê mới từ những mảnh của những cái cũ, tại sao tôi không chỉ đóng dấu toàn bộ Barbie đúc cho bạn? Tôi đã tìm ra loại Barbies nào bạn thích, và tôi hứa tôi cũng sẽ làm cho bạn một loại bạn thích. " Thay vì loay hoay với dữ liệu và lắp ráp những con búp bê mới từ những mảnh của những cái cũ, tại sao tôi không chỉ đóng dấu toàn bộ Barbie đúc cho bạn? Tôi đã tìm ra loại Barbies nào bạn thích, và tôi hứa tôi cũng sẽ làm cho bạn một loại bạn thích. "

Trong trường hợp bootstrap tham số mà bạn mô tả, bạn phải chắc chắn rằng mô hình HMM của bạn khá hoàn hảo, nếu không bootstrap tham số của bạn có thể dẫn đến kết quả không chính xác (Barbies không thể di chuyển cánh tay của họ). Hãy suy nghĩ về ví dụ suy thoái heteroskedastic ở trên; hoặc suy nghĩ về việc khớp mô hình AR (1) với dữ liệu AR (5): bất cứ điều gì bạn làm với dữ liệu mô phỏng tham số, họ sẽ không có cấu trúc dữ liệu gốc được sử dụng.

Chỉnh sửa : khi Sadeghd làm rõ câu hỏi của mình, tôi cũng có thể trả lời câu hỏi đó. Có một loạt các thủ tục bootstrap, mỗi địa chỉ giải quyết vấn đề cụ thể trong thống kê, kích thước mẫu, sự phụ thuộc hoặc bất kỳ vấn đề nào với bootstrap có thể xảy ra. Không có cách duy nhất để giải quyết sự phụ thuộc, ví dụ. (Tôi đã làm việc với khảo sát bootstraps, có khoảng 8 quy trình khác nhau, mặc dù một số quy trình chủ yếu mang tính phương pháp hơn là quan tâm thực tế và một số rõ ràng kém hơn ở chỗ chúng chỉ áp dụng trong các trường hợp đặc biệt, không dễ khái quát hóa.) thảo luận chung về các vấn đề bạn có thể gặp phải với bootstrap, xem Canty, Davison, Hinkley và Ventura (2006). Bootstrap chẩn đoán và biện pháp khắc phục. Tạp chí Thống kê Canada, 34 (1), 5-27 .


Chỉ cần thêm một chút vào tuyên bố của bạn về việc có ít thông tin hơn khi bạn có các cụm dữ liệu phụ thuộc (trong phần Trung bình ), tôi tin rằng điều này là đúng khi có tương quan nội hàm tích cực trong một cụm, nhưng điều ngược lại là đúng khi có âm tương quan nội hàm. Tất nhiên, dường như trong hầu hết các ứng dụng dữ liệu thực tế, mối tương quan nội hàm là tích cực.
Macro

@Macro: bạn chắc chắn đúng về cả hai tính toán (rằng điều này là có thể về mặt kỹ thuật, và nó thực tế không liên quan). Điều tương tự cũng sẽ đúng nếu bạn ước tính mức trung bình của quy trình AR (1) có tương quan âm, nhưng một lần nữa tôi lại suy nghĩ về các quy trình thực có thể có tính năng này. Không giống như tự tương quan dương có khả năng tự tái tạo ở các thang thời gian khác nhau, mối tương quan âm phải biến mất nếu bạn tăng gấp đôi thời lượng tham chiếu. (Dữ liệu chu kỳ kinh doanh, như GDP của Hoa Kỳ, có tương quan âm ở độ trễ khoảng ba năm.)
StasK

Cảm ơn câu trả lời chi tiết của bạn. Tôi kết luận rằng việc lấy mẫu lại tham số có thể làm giảm hiệu quả của sự phụ thuộc. Tuy nhiên, phân phối tham số phải, ở một mức độ tốt, đại diện cho dân số thực và các mẫu phụ thuộc được tái tạo trong việc lấy mẫu lại.
Sadeghd
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.