Phương pháp Bootstrap nào được ưa thích nhất?


7

Có thể câu hỏi này phụ thuộc vào dữ liệu đã cho, nhưng liệu có phương pháp bootstrap "tốt hơn" so với các phương pháp khác không? Tôi chỉ đơn giản là sử dụng một tập dữ liệu một biến (bao gồm sự khác biệt giữa tỷ số bóng đá (2 đội) trong 15 tuần qua) ..

Đầu tiên lưu ý sai lệch của dữ liệu này, tôi cảm thấy như thế này sẽ xem xét bootstrap nào tôi muốn giới thiệu là "tốt hơn" hoặc chính xác nhất để thể hiện dữ liệu.

nhập mô tả hình ảnh ở đây

Đầu tiên ở đây là khoảng thời gian bootstrap tiêu chuẩn

N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}

lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)

 mean(Differences.mean)-m  #The bias is fairly small also
= -.0019

Đây là một khoảng phần trăm bootstrap

 quantile(Differences.mean,c(.025,.975)
 = (8.893, 10.938) 

Cuối cùng ở đây là khoảng Bootstrap T

Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)

mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)

Ngoài ra, ngay cả khoảng tin cậy t có vẻ khá chính xác

 t.test(Differences, conf.level = .95, alternative = "two.sided")
 = (8.867, 10.928)

Kết luận của tôi sẽ là chọn khoảng thời gian bootstrap t vì nó phản ánh đúng độ lệch của dữ liệu, nó được kéo dài sang bên phải hơn bất kỳ cái nào khác. Cỡ mẫu của tôi là 224. Tôi nghĩ rằng cỡ mẫu đóng vai trò rất lớn trong kết luận của tôi, nhưng câu hỏi ban đầu của tôi là "có phương pháp bootstrap nào tốt hơn các loại khác không?" .. Có lẽ nó thực sự phụ thuộc vào dữ liệu và cỡ mẫu. Hy vọng điều này không quá rộng.


Đây có phải là một vấn đề bài tập về nhà?
Jon

1
Đây là một bài viết hay để đọc, "So sánh lý thuyết về khoảng tin cậy của Bootstrap": projecteuclid.org/doad/pdf_1/euclid.aos/1176350933
Jon

2
Có vẻ như bạn có một số ý tưởng tốt. Hãy nhìn vào công việc của Tim Hesterberg trên bootstrap t. Tôi hoàn toàn không hiểu biểu đồ của bạn bởi vì nó không hiển thị bao xa về mặt tiêu cực của đường cong. Tôi hơi ngạc nhiên về mức độ gần nhau của tất cả các phương pháp. Tôi đã mong đợi bootstrap tiêu chuẩn sẽ làm tồi tệ hơn nhiều.
Michael R. Chernick

1
Bạn đã xem xét BC và BCa?
Michael R. Chernick

1
Bạn có thể xem những cuốn sách này của các tác giả Efron và Tibshirani 1993. Davison và Hinkley 1997 và Chernick 2007. Cuốn sách của tôi được xuất bản bởi Wiley. Tôi nghĩ rằng Efron Chapman và Hall và Davison và Hinkley Cambridge University Press.
Michael R. Chernick

Câu trả lời:


1

Như Michael Chernick lưu ý , sẽ rất hữu ích khi xem xét bootstrap được điều chỉnh sai lệch (BC) và sửa lỗi và tăng tốc (BCa) .

Biến thể BCa đặc biệt cố gắng xử lý sự sai lệch trong dữ liệu, như bạn rõ ràng có. DiCiccio & Efron (1996, Khoa học thống kê ) thấy rằng nó hoạt động tốt, cũng như Davison & Hinkley, Phương pháp Bootstrap và Ứng dụng của họ (1997).

Tại sao khoảng thời gian bootstrap của tôi có phạm vi bảo hiểm khủng khiếp? có liên quan, và tôi đặc biệt muốn giới thiệu bài viết của Canto et al. (2006) mà tôi trích dẫn ở đó. Và cuối cùng, tôi đồng ý rằng câu trả lời có khả năng liên quan đến kích thước mẫu, cũng như phân phối cơ bản của bạn và tính xoay vòng hoặc không theo thống kê mà bạn đang khởi động.


Điều rất quan trọng là mô phỏng xác suất không bảo hiểm ở cả hai phía của khoảng tin cậy. Khi tôi làm điều đó cho phân phối log-normal, tất cả các khoảng thời gian bootstrap đều có phạm vi bảo hiểm khủng khiếp, ngoại trừ bootstrap t mà tôi không thử. Cũng đáng để sử dụng gói bootstrap tiêu chuẩn để kiểm tra kết quả bootstrap của bạn.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.