Tính toán sai số chuẩn trong ước lượng trung bình có trọng số


16

Giả sử rằng và đang từng vẽ iid từ một số các bản phân phối, với độc lập của . Các hoàn toàn tích cực. Bạn quan sát tất cả các , nhưng không phải là ; thay vì bạn quan sát . Tôi quan tâm đến việc ước tính từ thông tin này. Rõ ràng công cụ ước tính là không thiên vị, và có thể được tính toán cung cấp thông tin trong tay.x 1 , x 2 , . . . , x nw1,w2,,wnx1,x2,...,xnx i w i w i x i i x i w i E [ x ] ˉ x = i w i x iwixiwiwixiixiwiE[x]

x¯=iwixiiwi

Làm thế nào tôi có thể tính toán lỗi tiêu chuẩn của công cụ ước tính này? Đối với trường hợp con trong đó chỉ lấy các giá trị 0 và 1, tôi đã cố gắng thử về cơ bản bỏ qua sự biến đổi trong , nhưng thấy rằng điều này hoạt động kém đối với kích thước mẫu nhỏ hơn khoảng 250. (Và điều này có lẽ phụ thuộc vào phương sai của .) Có vẻ như tôi không có đủ thông tin để tính toán một lỗi tiêu chuẩn 'tốt hơn'. s e xiwiwi

sex¯(1x¯)iwi2iwi,
wiwi

Câu trả lời:


17

Tôi gặp vấn đề tương tự gần đây. Sau đây là những gì tôi tìm thấy:

Không giống như một mẫu ngẫu nhiên đơn giản có trọng số bằng nhau, không có định nghĩa được chấp nhận rộng rãi về sai số chuẩn của giá trị trung bình có trọng số . Ngày nay, sẽ rất dễ dàng để thực hiện bootstrap và có được phân phối theo kinh nghiệm của giá trị trung bình, và dựa trên ước tính đó là lỗi tiêu chuẩn.

Điều gì nếu một người muốn sử dụng một công thức để thực hiện ước tính này?

Tài liệu tham khảo chính là bài báo này của Donald F. Gatz và Luther Smith, trong đó 3 công cụ ước tính dựa trên công thức được so sánh với kết quả bootstrap. Sự gần đúng nhất với kết quả bootstrap đến từ Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Sau đây là mã R tương ứng xuất phát từ luồng liệt kê R này .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Hi vọng điêu nay co ich!


Điều này khá thú vị, nhưng đối với vấn đề của tôi, tôi thậm chí không quan sát , thay vào đó tôi quan sát tổng . Câu hỏi của tôi rất kỳ lạ vì nó liên quan đến một số thông tin bất cân xứng (một bên thứ ba đang báo cáo tổng số và cố gắng che giấu một số thông tin). PiXiiPiXi
shabbychef

Trời ạ, bạn nói đúng, xin lỗi tôi không hiểu hết câu hỏi bạn đặt ra. Giả sử chúng tôi giải quyết vấn đề của bạn trong trường hợp đơn giản nhất trong đó tất cả là Bernoulli RV. Sau đó, về cơ bản bạn đang quan sát tổng của một tập hợp con ngẫu nhiên của RV. Tôi đoán là không có nhiều thông tin ở đây để ước tính. Vì vậy, cuối cùng bạn đã làm gì cho vấn đề ban đầu của bạn? nwin
Ming-Chih Kao

@ Ming-ChihKao công thức cochran này rất thú vị nhưng nếu bạn xây dựng một khoảng tin cậy tắt điều này khi dữ liệu không bình thường thì không có giải thích nhất quán đúng không? Làm thế nào bạn sẽ xử lý khoảng tin cậy trung bình có trọng số trung bình không bình thường? Lượng tử có trọng số?
dùng3022875

Tôi nghĩ rằng có một lỗi với chức năng. Nếu bạn thay thế w=rep(1, length(x)), sau đó weighted.var.se(rnorm(50), rep(1, 50))là về 0.014. Tôi nghĩ rằng công thức bị thiếu một sum(w^2)trong tử số, kể từ khi nào P=1, phương sai là 1/(n*(n-1)) * sum((x-xbar)^2). Tôi không thể kiểm tra bài viết được trích dẫn vì nó nằm sau một bức tường, nhưng tôi nghĩ rằng sự điều chỉnh đó. Thật kỳ lạ, giải pháp (khác biệt) của Wikipedia trở nên suy đồi khi tất cả các trọng số đều bằng nhau: en.wikipedia.org/wiki/ .
Max Candocia

Những thứ này có thể hoạt động tốt hơn nói chung: analyticalgroup.com/doad/weIGHTED_MESE.pdf
Max Candocia

5

Phương sai của ước tính của bạn với là Vì ước tính của bạn không thiên vị cho bất kỳ nào , phương sai của giá trị trung bình có điều kiện của nó bằng không. Do đó, phương sai của ước tính của bạn là Với tất cả dữ liệu được quan sát, đây sẽ là dễ ước lượng theo kinh nghiệm Nhưng chỉ với một thước đo vị trí của được quan sát, và không phải là sự lây lan của chúng, tôi không thấy làm thế nào có thể ước tính được , mà không đưa ra các giả định khá nghiêm trọng.w 2 i V a r ( X )wTôiwiVar(X)E( w 2 i

ΣwTôi2Vmộtr(X)(ΣwTôi)2= =Vmộtr(X)ΣwTôi2(ΣwTôi)2.
wTôiXiVar(X)
Vmộtr(X)E(ΣwTôi2(ΣwTôi)2)
XTôiVmộtr(X)

ít nhất là trong trường hợp cụ thể trong đó có phân phối Bernoulli tôi có thể ước tính phương sai của theo như đã lưu ý ở trên. Ngay cả trong trường hợp này, như đã lưu ý trong câu hỏi, tôi cần một cỡ mẫu lớn hơn tôi mong đợi. x ˉ x ( 1 - ˉ x )xTôixx¯(1-x¯)
shabbychef
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.