Có rất nhiều cách để tính toán các chỉ số khởi động và giá trị p. Vấn đề chính là bootstrap không thể tạo dữ liệu theo giả thuyết null. Các thử nghiệm hoán vị là một thay thế khả thi dựa trên thay thế này. Để sử dụng bootstrap thích hợp, bạn phải đưa ra một số giả định về phân phối lấy mẫu của thống kê kiểm tra.
Một nhận xét về việc thiếu tính bất biến của thử nghiệm: hoàn toàn có thể tìm thấy 95% TCTD không bao gồm null nhưng ap> 0,05 hoặc ngược lại. Để có thỏa thuận tốt hơn, việc tính toán các mẫu bootstrap theo null phải được xử lý dưới dạng thay vì . Điều đó có nghĩa là nếu mật độ bị lệch phải trong mẫu bootstrap, mật độ phải bị lệch sang trái trong null. Thật sự không thể đảo ngược các xét nghiệm đối với các TCTD với các giải pháp không phân tích (ví dụ như lấy mẫu lại) như thế này.β * 0 = β * - ββ∗0=β^−β^∗β∗0=β^∗−β^
bootstrap bình thường
Một cách tiếp cận là bootstrap bình thường trong đó bạn lấy giá trị trung bình và độ lệch chuẩn của phân phối bootstrap, tính toán phân phối lấy mẫu theo null bằng cách dịch chuyển phân phối và sử dụng phân vị bình thường từ phân phối null tại điểm ước tính trong mẫu bootstrap ban đầu . Đây là một cách tiếp cận hợp lý khi phân phối bootstrap là bình thường, kiểm tra trực quan thường đủ ở đây. Các kết quả sử dụng phương pháp này thường rất gần với ước tính sai số dựa trên sandwich hoặc mạnh mẽ, mạnh mẽ chống lại các giả định phương sai mẫu không đồng nhất và / hoặc hữu hạn. Giả định của một thống kê kiểm tra bình thường là một điều kiện mạnh mẽ hơn của các giả định trong thử nghiệm bootstrap tiếp theo mà tôi sẽ thảo luận.
bootstrap phần trăm
Một cách tiếp cận khác là bootstrap phần trăm , đó là điều mà tôi nghĩ rằng hầu hết chúng ta đều cân nhắc khi nói về bootstrap. Ở đây, phân phối bootstrapping của tham số ước tính phân phối theo kinh nghiệm của mẫu theo giả thuyết thay thế. Phân phối này có thể có thể không bình thường. CI 95% được tính toán dễ dàng bằng cách lấy các lượng tử theo kinh nghiệm. Nhưng một giả định quan trọng là phân phối như vậy là then chốt . Điều này có nghĩa là nếu tham số cơ bản thay đổi, hình dạng của phân phối chỉ được thay đổi bởi một hằng số và thang đo không nhất thiết phải thay đổi. Đây là một giả định mạnh mẽ! Nếu điều này được giữ, bạn có thể tạo "phân phối số liệu thống kê theo giả thuyết null" (DSNH hoặcF∗0) bằng cách trừ phân phối bootstrap khỏi các ước tính, sau đó tính toán tỷ lệ phần trăm của DSNH là "cực đoan" hơn ước tính của bạn bằng cách sử dụng2×min(F∗0(β^),1−F∗0(β^))
Bootstrap sinh viên
Giải pháp bootstrap đơn giản nhất để tính giá trị là sử dụng bootstrap được sinh viên hóa. Với mỗi lần lặp bootstrap, tính toán thống kê và lỗi tiêu chuẩn của nó và trả về thống kê học sinh. Điều này đưa ra một phân phối sinh viên bootstrapping cho giả thuyết có thể được sử dụng để tính toán giá trị cis và p rất dễ dàng. Điều này cũng làm cơ sở cho trực giác đằng sau bootstrap được điều chỉnh tăng tốc. Phân phối t thay đổi dễ dàng hơn nhiều theo giá trị null vì các kết quả ngoại vi bị giảm cân bởi phương sai cao tương ứng của chúng.p
Ví dụ lập trình
Ví dụ, tôi sẽ sử dụng city
dữ liệu trong gói bootstrap. Khoảng tin cậy của bootstrap được tính bằng mã này:
ratio <- function(d, w) sum(d$x * w)/sum(d$u * w)
city.boot <- boot(city, ratio, R = 999, stype = "w", sim = "ordinary")
boot.ci(city.boot, conf = c(0.90, 0.95),
type = c("norm", "basic", "perc", "bca"))
và sản xuất đầu ra này:
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates
CALL :
boot.ci(boot.out = city.boot, conf = c(0.9, 0.95), type = c("norm",
"basic", "perc", "bca"))
Intervals :
Level Normal Basic
90% ( 1.111, 1.837 ) ( 1.030, 1.750 )
95% ( 1.042, 1.906 ) ( 0.895, 1.790 )
Level Percentile BCa
90% ( 1.291, 2.011 ) ( 1.292, 2.023 )
95% ( 1.251, 2.146 ) ( 1.255, 2.155 )
Calculations and Intervals on Original Scale
CI 95% cho bootstrap bình thường thu được bằng cách tính toán:
with(city.boot, 2*t0 - mean(t) + qnorm(c(0.025, 0.975)) %o% sqrt(var(t)[1,1]))
Do đó, giá trị p thu được:
> with(city.boot, pnorm(abs((2*t0 - mean(t) - 1) / sqrt(var(t)[1,1])), lower.tail=F)*2)
[1] 0.0315
Điều này đồng ý rằng CI bình thường 95% không bao gồm giá trị tỷ lệ null là 1.
CI phần trăm thu được (với một số khác biệt do các phương pháp cho mối quan hệ):
quantile(city.boot$t, c(0.025, 0.975))
Và giá trị p cho bootstrap phần trăm là:
cvs <- quantile(city.boot$t0 - city.boot$t + 1, c(0.025, 0.975))
mean(city.boot$t > cvs[1] & city.boot$t < cvs[2])
Cho ap 0,035 cũng đồng ý với khoảng tin cậy về mặt loại trừ 1 khỏi giá trị. Nhìn chung, chúng ta không thể quan sát thấy rằng, trong khi chiều rộng của CI phần trăm gần bằng với CI bình thường và CI phần trăm khác xa hơn so với CI mà phần trăm CI nên cung cấp giá trị p thấp hơn. Điều này là do hình dạng của phân phối lấy mẫu bên dưới CI cho phương pháp phân vị là không bình thường.