Có thể câu hỏi này phụ thuộc vào dữ liệu đã cho, nhưng liệu có phương pháp bootstrap "tốt hơn" so với các phương pháp khác không? Tôi chỉ đơn giản là sử dụng một tập dữ liệu một biến (bao gồm sự khác biệt giữa tỷ số bóng đá (2 đội) trong 15 tuần qua) ..
Đầu tiên lưu ý sai lệch của dữ liệu này, tôi cảm thấy như thế này sẽ xem xét bootstrap nào tôi muốn giới thiệu là "tốt hơn" hoặc chính xác nhất để thể hiện dữ liệu.
Đầu tiên ở đây là khoảng thời gian bootstrap tiêu chuẩn
N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}
lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)
mean(Differences.mean)-m #The bias is fairly small also
= -.0019
Đây là một khoảng phần trăm bootstrap
quantile(Differences.mean,c(.025,.975)
= (8.893, 10.938)
Cuối cùng ở đây là khoảng Bootstrap T
Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)
mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)
Ngoài ra, ngay cả khoảng tin cậy t có vẻ khá chính xác
t.test(Differences, conf.level = .95, alternative = "two.sided")
= (8.867, 10.928)
Kết luận của tôi sẽ là chọn khoảng thời gian bootstrap t vì nó phản ánh đúng độ lệch của dữ liệu, nó được kéo dài sang bên phải hơn bất kỳ cái nào khác. Cỡ mẫu của tôi là 224. Tôi nghĩ rằng cỡ mẫu đóng vai trò rất lớn trong kết luận của tôi, nhưng câu hỏi ban đầu của tôi là "có phương pháp bootstrap nào tốt hơn các loại khác không?" .. Có lẽ nó thực sự phụ thuộc vào dữ liệu và cỡ mẫu. Hy vọng điều này không quá rộng.