Bootstrap Resampling có thể được sử dụng để tính khoảng tin cậy cho phương sai của tập dữ liệu không?
Vâng, giống như với nhiều số liệu thống kê khác.
Tôi biết rằng nếu bạn lấy mẫu lại từ một tập dữ liệu nhiều lần và tính giá trị trung bình mỗi lần, các phương tiện này sẽ tuân theo phân phối bình thường (theo CLT).
Không phải lúc nào cũng có trường hợp nếu bạn bootstrap có nghĩa là bootstrap có nghĩa là sẽ phân phối bình thường, ngay cả đối với các bản phân phối mà CLT áp dụng.
n=100
Nó không bình thường từ xa.
Mẫu ban đầu bao gồm chín mươi bảy giá trị '0' và '1', '2' và '100'.
Đây là mã (R) mà tôi đã chạy để tạo cốt truyện ở trên:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Vấn đề là trong trường hợp này, cỡ mẫu (100) quá nhỏ để CLT áp dụng với loại hình phân phối này; không quan trọng chúng ta lấy mẫu lại bao nhiêu lần.
Tuy nhiên, nếu kích thước mẫu ban đầu lớn hơn nhiều, phân phối mẫu của mẫu có nghĩa là một cái gì đó như thế này sẽ trông bình thường hơn (mặc dù luôn luôn rời rạc).
Dưới đây là các ecdf khi lấy mẫu lại dữ liệu trên (màu đen) và cho các giá trị theo cùng tỷ lệ nhưng với số lượng giá trị gấp mười lần (màu đỏ; nghĩa là, n = 1000):
Như chúng ta thấy, hàm phân phối khi lấy mẫu lại mẫu lớn trông bình thường hơn nhiều.
nếu tôi lấy mẫu lại từ một tập dữ liệu nhiều lần và tính toán phương sai mỗi lần, thì các phương sai này có tuân theo một phân phối nhất định không
Không, vì lý do tương tự, nó không nhất thiết đúng với giá trị trung bình.
Tuy nhiên, CLT cũng áp dụng cho phương sai *; chỉ là bạn không thể tranh luận rằng CLT áp dụng cho việc thay đổi kích thước bootstrap chỉ đơn giản bằng cách lấy nhiều mẫu. Nếu cỡ mẫu ban đầu đủ lớn, có thể (trong điều kiện phù hợp) có xu hướng thực hiện phân phối lại phương tiện (và thời điểm cao hơn, nếu chúng tồn tại) tương đối gần với phân phối bình thường (so với phân phối của nó trong các mẫu nhỏ hơn, tại ít nhất).
s2n=1n∑ni=1(xi−x¯)2yi=(xi−x¯)2s2n=y¯ys2ns2n−1s2ns2ns2n−1