Có thể sử dụng phương pháp lấy mẫu bootstrap để tính khoảng tin cậy cho phương sai của tập dữ liệu không?


9

Tôi biết rằng nếu bạn lấy mẫu lại từ một tập dữ liệu nhiều lần và tính giá trị trung bình mỗi lần, các phương tiện này sẽ tuân theo phân phối bình thường (theo CLT). Do đó, bạn có thể tính khoảng tin cậy trên giá trị trung bình của tập dữ liệu mà không đưa ra bất kỳ giả định nào về phân phối xác suất của tập dữ liệu.

Tôi đã tự hỏi nếu bạn có thể làm một cái gì đó tương tự cho phương sai. Đó là, nếu tôi đã lấy mẫu lại từ một tập dữ liệu nhiều lần và tính toán phương sai mỗi lần, các phương sai này có tuân theo một phân phối nhất định không (bất kể phân phối xác suất ban đầu của tập dữ liệu là gì)?

Tôi biết rằng nếu tập dữ liệu gốc đó là bình thường, thì phương sai sẽ tuân theo phân phối chi bình phương. Nhưng những gì về trường hợp đó là không bình thường?

Câu trả lời:


10

Bootstrap Resampling có thể được sử dụng để tính khoảng tin cậy cho phương sai của tập dữ liệu không?

Vâng, giống như với nhiều số liệu thống kê khác.

Tôi biết rằng nếu bạn lấy mẫu lại từ một tập dữ liệu nhiều lần và tính giá trị trung bình mỗi lần, các phương tiện này sẽ tuân theo phân phối bình thường (theo CLT).

Không phải lúc nào cũng có trường hợp nếu bạn bootstrap có nghĩa là bootstrap có nghĩa là sẽ phân phối bình thường, ngay cả đối với các bản phân phối mà CLT áp dụng.

n=100

nhập mô tả hình ảnh ở đây

Nó không bình thường từ xa.

Mẫu ban đầu bao gồm chín mươi bảy giá trị '0' và '1', '2' và '100'.

Đây là mã (R) mà tôi đã chạy để tạo cốt truyện ở trên:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Vấn đề là trong trường hợp này, cỡ mẫu (100) quá nhỏ để CLT áp dụng với loại hình phân phối này; không quan trọng chúng ta lấy mẫu lại bao nhiêu lần.

Tuy nhiên, nếu kích thước mẫu ban đầu lớn hơn nhiều, phân phối mẫu của mẫu có nghĩa là một cái gì đó như thế này sẽ trông bình thường hơn (mặc dù luôn luôn rời rạc).

Dưới đây là các ecdf khi lấy mẫu lại dữ liệu trên (màu đen) và cho các giá trị theo cùng tỷ lệ nhưng với số lượng giá trị gấp mười lần (màu đỏ; nghĩa là, n = 1000):

nhập mô tả hình ảnh ở đây

Như chúng ta thấy, hàm phân phối khi lấy mẫu lại mẫu lớn trông bình thường hơn nhiều.

nếu tôi lấy mẫu lại từ một tập dữ liệu nhiều lần và tính toán phương sai mỗi lần, thì các phương sai này có tuân theo một phân phối nhất định không

Không, vì lý do tương tự, nó không nhất thiết đúng với giá trị trung bình.

Tuy nhiên, CLT cũng áp dụng cho phương sai *; chỉ là bạn không thể tranh luận rằng CLT áp dụng cho việc thay đổi kích thước bootstrap chỉ đơn giản bằng cách lấy nhiều mẫu. Nếu cỡ mẫu ban đầu đủ lớn, có thể (trong điều kiện phù hợp) có xu hướng thực hiện phân phối lại phương tiện (và thời điểm cao hơn, nếu chúng tồn tại) tương đối gần với phân phối bình thường (so với phân phối của nó trong các mẫu nhỏ hơn, tại ít nhất).

sn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯ysn2sn12sn2sn2sn12

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.