Là định tâm cần thiết khi bootstrapping mẫu có nghĩa là?


13

Khi đọc về cách xấp xỉ phân phối của mẫu có nghĩa là tôi đã bắt gặp phương pháp bootstrap không theo tỷ lệ. Rõ ràng người ta có thể xấp xỉ phân phối X¯n-μ bởi sự phân bố của X¯n*-X¯n , nơi X¯n* biểu thị giá trị trung bình mẫu của mẫu bootstrap.

Câu hỏi của tôi sau đó là: Tôi có cần định tâm không? Để làm gì?

Không thể tôi chỉ gần đúng P(X¯nx) bởi P(X¯n*x) ?


Tôi không thấy lý do tại sao bạn cần phải tập trung bất cứ điều gì. Tất cả các mẫu được thảo luận ở đây đều có cùng kích thước phải không?
Bitwise

Cùng kích thước, có. Tôi cũng không thấy lý do cho việc định tâm. Bất cứ ai cũng có thể đưa ra một lời giải thích toán học tại sao hoặc tại sao chúng ta không phải làm điều đó? Ý tôi là, chúng ta có thể chứng minh rằng bootstrap hoạt động hay không hoạt động nếu chúng ta không tập trung?
Christin

3
(Btw, một bằng chứng cho thấy bootstrap hoạt động cho trường hợp chúng ta tập trung có thể được tìm thấy trong Bickel, PJ và DA Freedman (1981), Một số lý thuyết tiệm cận cho bootstrap .)
Christin

Tôi tò mò: Tại sao câu hỏi này bị hạ thấp?
Đức hồng y

Có lẽ chúng ta nhập vào để có thể sử dụng Định lý giới hạn trung tâm cung cấp cho chúng ta hội tụ với sự phân bố giống nhưn1n12(X¯n-μ), cụ thể là đểN(0,σ2). Có lẽ không có triệu chứng có sẵn cho trường hợp mà không tập trung cho chúng tôi biết nếu nó hoạt động. n12(X¯n*-X¯n)N(0,σ2)
kelu

Câu trả lời:


4

Có, bạn có thể xấp xỉ bởi P ( ˉ X * nx ) nhưng nó không phải là tối ưu. Đây là một hình thức của bootstrap phần trăm. Tuy nhiên, bootstrap phần trăm không hoạt động tốt nếu bạn đang tìm cách suy luận về dân số trừ khi bạn có cỡ mẫu lớn. (Nó hoạt động tốt với nhiều vấn đề suy luận khác bao gồm khi kích thước mẫu nhỏ.) Tôi lấy kết luận này từ Thống kê hiện đại về khoa học xã hội và hành vi của Wilcox , CRC Press, 2012. Một bằng chứng lý thuyết nằm ngoài tôi tôi sợ .P(X¯nx)P(X¯n*x)

Một biến thể của phương pháp định tâm đi vào bước tiếp theo và chia tỷ lệ thống kê bootstrap trung tâm của bạn với độ lệch chuẩn và cỡ mẫu lại, tính toán theo cách tương tự như thống kê. Các lượng tử từ phân phối các thống kê t này có thể được sử dụng để xây dựng khoảng tin cậy hoặc thực hiện kiểm tra giả thuyết. Đây là phương pháp bootstrap-t và nó cho kết quả vượt trội khi suy luận về giá trị trung bình.

Đặt là độ lệch chuẩn mẫu lại dựa trên mẫu lại bootstrap, sử dụng n-1 làm mẫu số; và s là độ lệch chuẩn của mẫu ban đầu. Để choS*

T*= =X¯n*-X¯S*/n

Các 97.5th và 2.5th percentiles của sự phân bố mô phỏng của có thể làm cho một khoảng tin cậy cho μ theo:T*μ

X¯-T0,975*Sn,X¯-T0,025*Sn

Hãy xem xét các kết quả mô phỏng dưới đây, cho thấy rằng với phân phối hỗn hợp bị sai lệch, các khoảng tin cậy từ phương pháp này chứa giá trị thực thường xuyên hơn so với phương pháp bootstrap phần trăm hoặc phương pháp truyền thống của thống kê không có bootstrapping.

compare.boots <- function(samp, reps = 599){
    # "samp" is the actual original observed sample
    # "s" is a re-sample for bootstrap purposes

    n <- length(samp)

    boot.t <- numeric(reps)
    boot.p <- numeric(reps)

    for(i in 1:reps){
        s <- sample(samp, replace=TRUE)
        boot.t[i] <- (mean(s)-mean(samp)) / (sd(s)/sqrt(n))
        boot.p[i] <- mean(s)
    }

    conf.t <- mean(samp)-quantile(boot.t, probs=c(0.975,0.025))*sd(samp)/sqrt(n)
    conf.p <- quantile(boot.p, probs=c(0.025, 0.975))

    return(rbind(conf.t, conf.p, "Trad T test"=t.test(samp)$conf.int))
}

# Tests below will be for case where sample size is 15
n <- 15

# Create a population that is normally distributed
set.seed(123)
pop <- rnorm(1000,10,1)
my.sample <- sample(pop,n)
# All three methods have similar results when normally distributed
compare.boots(my.sample)

Điều này đưa ra như sau (conf.t là phương thức bootstrap t; conf.p là phương thức bootstrap phần trăm).

          97.5%     2.5%
conf.t      9.648824 10.98006
conf.p      9.808311 10.95964
Trad T test 9.681865 11.01644

Với một ví dụ duy nhất từ ​​phân phối bị lệch:

# create a population that is a mixture of two normal and one gamma distribution
set.seed(123)
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mean(pop)
compare.boots(my.sample)

Điều này cho sau đây. Lưu ý rằng "conf.t" - phiên bản bootstrap t - cho khoảng tin cậy rộng hơn so với hai phiên bản còn lại. Về cơ bản, nó là tốt hơn để đáp ứng với sự phân phối bất thường của dân số.

> mean(pop)
[1] 13.02341
> compare.boots(my.sample)
                97.5%     2.5%
conf.t      10.432285 29.54331
conf.p       9.813542 19.67761
Trad T test  8.312949 20.24093

Cuối cùng, đây là một ngàn mô phỏng để xem phiên bản nào cung cấp khoảng tin cậy thường đúng nhất:

# simulation study
set.seed(123)
sims <- 1000
results <- matrix(FALSE, sims,3)
colnames(results) <- c("Bootstrap T", "Bootstrap percentile", "Trad T test")

for(i in 1:sims){
    pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
    my.sample <- sample(pop,n)
    mu <- mean(pop)
    x <- compare.boots(my.sample)
    for(j in 1:3){
        results[i,j] <- x[j,1] < mu & x[j,2] > mu
    }
}

apply(results,2,sum)

Điều này đưa ra kết quả dưới đây - các con số là số lần trong số 1.000 mà khoảng tin cậy chứa giá trị thực của dân số mô phỏng. Lưu ý rằng tỷ lệ thành công thực sự của mọi phiên bản thấp hơn đáng kể 95%.

     Bootstrap T Bootstrap percentile          Trad T test 
             901                  854                  890 

Cảm ơn bạn, đó là rất nhiều thông tin. .Pdf này (từ một bài học) mô tả một cảnh báo cho kết luận của bạn: psychology.mcmaster.ca/bennett/boot09/percentileT.pdf Đây là tóm tắt về những gì Bennet nói: Nhiều bộ dữ liệu bao gồm các số> = 0 (tức là dữ liệu có thể được tính), trong trường hợp đó CI không được chứa giá trị âm. Sử dụng phương pháp bootstrap-t điều này có thể xảy ra, làm cho khoảng tin cậy trở nên hợp lý. Yêu cầu dữ liệu> = 0 vi phạm giả định phân phối bình thường. Đây không phải là vấn đề khi xây dựng CI phần trăm khởi động phần trăm
Hannes Ziegler
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.