Tôi đang sản xuất một tập lệnh để tạo các mẫu bootstrap từ cats
bộ dữ liệu (từ -MASS-
gói).
Theo sách giáo khoa Davidson và Hinkley [1] Tôi đã thực hiện một hồi quy tuyến tính đơn giản và áp dụng một quy trình phi tham số cơ bản để khởi động từ các quan sát iid, cụ thể là ghép cặp .
Mẫu ban đầu có dạng:
Bwt Hwt
2.0 7.0
2.1 7.2
...
1.9 6.8
Thông qua một mô hình tuyến tính đơn biến, chúng tôi muốn giải thích trọng lượng của mèo thông qua trọng lượng não của chúng.
Mã này là:
library(MASS)
library(boot)
##################
# CATS MODEL #
##################
cats.lm <- glm(Hwt ~ Bwt, data=cats)
cats.diag <- glm.diag.plots(cats.lm, ret=T)
#######################
# CASE resampling #
#######################
cats.fit <- function(data) coef(glm(data$Hwt ~ data$Bwt))
statistic.coef <- function(data, i) cats.fit(data[i,])
bootl <- boot(data=cats, statistic=statistic.coef, R=999)
Giả sử bây giờ tồn tại một biến cụm cluster = 1, 2,..., 24
(ví dụ, mỗi con mèo thuộc về một lứa nhất định). Để đơn giản, giả sử rằng dữ liệu được cân bằng: chúng tôi có 6 quan sát cho mỗi cụm. Do đó, mỗi trong số 24 lứa được tạo thành từ 6 con mèo (tức là n_cluster = 6
và n = 144
).
Có thể tạo một cluster
biến giả thông qua:
q <- rep(1:24, times=6)
cluster <- sample(q)
c.data <- cbind(cats, cluster)
Tôi có hai câu hỏi liên quan:
Làm thế nào để mô phỏng các mẫu theo cấu trúc tập dữ liệu (cụm)? Đó là, làm thế nào để lấy mẫu lại ở cấp độ cụm? Tôi muốn lấy mẫu các cụm thay thế và đặt các quan sát trong mỗi cụm được chọn như trong tập dữ liệu ban đầu (nghĩa là lấy mẫu với thay thế các cụm và không thay thế các quan sát trong mỗi cụm).
Đây là chiến lược được đề xuất bởi Davidson (trang 100). Giả sử chúng ta vẽ B = 100
mẫu. Mỗi trong số chúng nên được tạo bởi 24 cụm có thể lặp lại (ví dụ cluster = 3, 3, 1, 4, 12, 11, 12, 5, 6, 8, 17, 19, 10, 9, 7, 7, 16, 18, 24, 23, 11, 15, 20, 1
) và mỗi cụm nên chứa 6 quan sát tương tự của tập dữ liệu gốc. Làm thế nào để làm điều đó trong R
? (có hoặc không có -boot-
gói.) Bạn có đề xuất thay thế nào để tiếp tục không?
Câu hỏi thứ hai liên quan đến mô hình hồi quy ban đầu. Giả sử tôi áp dụng mô hình hiệu ứng cố định , với các mức chặn cấp cụm. Nó có thay đổi quy trình lấy mẫu lại được thông qua không?
[1] Davidson, AC, Hinkley, DV (1997). Phương pháp Bootstrap và các ứng dụng của họ . Đại học Cambridge báo chí.