Vì một ví dụ đơn giản, giả sử rằng có hai mô hình hồi quy tuyến tính
- Mô hình 1 có ba dự đoán,
x1a
,x2b
, vàx2c
- Mô hình 2 có ba dự đoán từ mô hình 1 và hai dự đoán bổ sung
x2a
vàx2b
Có một phương trình hồi quy dân số trong đó phương sai dân số được giải thích là cho Mô hình 1 và cho Mô hình 2. Phương sai gia tăng được giải thích bởi Mô hình 2 trong dân số là ρ 2 ( 2 ) delta ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Tôi quan tâm đến việc thu được các lỗi tiêu chuẩn và khoảng tin cậy cho một công cụ ước tính của . Trong khi ví dụ liên quan đến 3 và 2 yếu tố dự đoán tương ứng, mối quan tâm nghiên cứu của tôi liên quan đến một loạt các số lượng dự đoán khác nhau (ví dụ: 5 và 30). Suy nghĩ đầu tiên của tôi là sử dụng làm công cụ ước tính và khởi động lại nó, nhưng tôi không chắc liệu điều này có được thích hợp. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Câu hỏi
- Là một ước lượng hợp lý của ? Δ ρ 2
- Làm thế nào có thể đạt được khoảng tin cậy cho thay đổi bình phương r dân số (nghĩa là )?
- Bootstrapping có phù hợp để tính khoảng tin cậy không?
Bất kỳ tài liệu tham khảo nào về mô phỏng hoặc tài liệu xuất bản cũng sẽ được hoan nghênh nhất.
Mã ví dụ
Nếu nó giúp, tôi đã tạo một tập dữ liệu mô phỏng nhỏ trong R có thể được sử dụng để thể hiện câu trả lời:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Lý do quan tâm với bootstrap
Tôi đã chạy bootstrap trên một số dữ liệu với khoảng 300 trường hợp và 5 dự đoán trong mô hình đơn giản và 30 dự đoán trong mô hình đầy đủ. Mặc dù ước tính mẫu sử dụng chênh lệch r-vuông đã điều chỉnh là 0.116
, khoảng tin cậy được tăng cường chủ yếu là CI95% lớn hơn (0,095 đến 0,214) và giá trị trung bình của bootstraps không ở gần ước tính mẫu. Thay vào đó, giá trị trung bình của các mẫu được tăng cường dường như được tập trung vào ước tính mẫu về sự khác biệt giữa các bình phương r trong mẫu. Điều này bất chấp thực tế là tôi đã sử dụng các ô vuông được điều chỉnh mẫu để ước tính sự khác biệt.
Thật thú vị, tôi đã thử một cách khác của máy tính là
- tính toán thay đổi mẫu r-vuông
- điều chỉnh thay đổi r-vuông mẫu bằng công thức r-vuông điều chỉnh tiêu chuẩn
Khi được áp dụng cho dữ liệu mẫu, điều này đã làm giảm ước tính của xuống nhưng khoảng tin cậy có vẻ phù hợp với phương pháp tôi đã đề cập đầu tiên, CI95% (.062, .179) với giá trị trung bình là .118..082
Nói chung, tôi lo ngại rằng bootstrapping giả định rằng mẫu là dân số, và do đó, ước tính rằng việc giảm quá mức có thể không thực hiện một cách thích hợp.