Độ lệch chuẩn có thể được tính cho trung bình hài?


12

Độ lệch chuẩn có thể được tính cho trung bình hài? Tôi hiểu rằng độ lệch chuẩn có thể được tính cho trung bình số học, nhưng nếu bạn có trung bình hài, làm thế nào để bạn tính độ lệch chuẩn hoặc CV?

Câu trả lời:


13

Giá trị trung bình hài của H của các biến ngẫu nhiên X1,...,Xn được định nghĩa là

H=11ni=1n1Xi

Chụp những khoảnh khắc của các phần phân đoạn là một doanh nghiệp lộn xộn, vì vậy thay vào đó tôi muốn làm việc với 1/H . Hiện nay

1H=1ni=1n1Xi
.

Định lý giới hạn trung tâm chúng ta ngay lập tức có được điều đó

n(H1EX11)N(0,VarX11)

nếu tất nhiên VarX11<Xi đang IID, vì chúng ta đơn giản làm việc với trung bình cộng của biến Yi=Xi1 .

Bây giờ sử dụng phương thức delta cho hàm g(x)=x1 chúng ta nhận được rằng

n(H(EX11)1)N(0,VarX11(EX11)4)

Kết quả này không có triệu chứng, nhưng đối với các ứng dụng đơn giản, nó có thể đủ.

Cập nhật Như @whuber chỉ ra một cách chính xác, các ứng dụng đơn giản là một cách viết sai. Định lý giới hạn trung tâm chỉ giữ nếu VarX11 tồn tại, đây là một giả định khá hạn chế.

Cập nhật 2 Nếu bạn có một mẫu, sau đó để tính độ lệch chuẩn, chỉ cần cắm các khoảnh khắc mẫu vào công thức. Vì vậy, đối với mẫu X1,...,Xn , ước tính trung bình hài là

H^=11ni=1n1Xi

các khoảnh khắc mẫu EX11Var(X11) lần lượt là:

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

ở đây R là viết tắt của đối ứng.

Cuối cùng công thức gần đúng cho độ lệch chuẩn của HH^

sd(H^)=σ^R2nμ^R4

Tôi đã chạy một số mô phỏng Monte-Carlo cho các biến ngẫu nhiên được phân phối đồng đều trong khoảng [2,3] . Đây là mã:

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Tôi mô phỏng Ncác mẫu của nkích thước mẫu. Đối với mỗi nmẫu có kích thước tôi tính toán ước tính tiêu chuẩn (hàm sdhm). Sau đó, tôi so sánh độ lệch trung bình và độ lệch chuẩn của các ước tính này với độ lệch chuẩn của mẫu trung bình hài được ước tính cho mỗi mẫu, có thể giả sử là độ lệch chuẩn thực của trung bình hài.

Như bạn có thể thấy kết quả khá tốt ngay cả đối với cỡ mẫu vừa phải. Tất nhiên phân phối đồng phục là một hành vi rất tốt, vì vậy không có gì đáng ngạc nhiên khi kết quả là tốt. Tôi sẽ để người khác điều tra hành vi cho các bản phân phối khác, mã rất dễ thích nghi.

Lưu ý: Trong phiên bản trước của câu trả lời này, có một lỗi trong kết quả của phương thức delta, phương sai không chính xác.


2
@mpiktas Đây là một khởi đầu tốt đẹp và cung cấp một số hướng dẫn khi CV thấp. Nhưng ngay cả trong các tình huống thực tế, đơn giản, không rõ ràng rằng CLT áp dụng. Tôi hy vọng các đối ứng của nhiều biến không có giây thứ hai hoặc thậm chí là giây đầu tiên hữu hạn khi có bất kỳ xác suất đáng kể nào mà giá trị của chúng có thể gần bằng không. Tôi cũng mong muốn phương thức delta không được áp dụng do các dẫn xuất có khả năng lớn của đối ứng gần bằng không. Do đó, nó có thể giúp đặc trưng chính xác hơn cho "các ứng dụng đơn giản" nơi phương thức của bạn có thể hoạt động. BTW, "D" là gì?
whuber

DX=E(XEX)2

DX

DVar[X]

1
Bài báo "Phân phối ngược" của EL Lehmann và Juliet Popper Shaffer là một bài đọc thú vị liên quan đến phân phối các biến ngẫu nhiên đảo ngược.
emakalic

2

xi1/xi

Nhược điểm chính là tính toán không tạo ra khoảng tin cậy tốt cho các phân phối cơ bản bị sai lệch cao. Đó có thể là một vấn đề với bất kỳ phương pháp có mục đích chung nào: trung bình hài hòa rất nhạy cảm với sự hiện diện của ngay cả một giá trị nhỏ trong tập dữ liệu.

20n=12420

Số liệu

Đây là Rmã cho các mô phỏng và số liệu.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

1

Đây là một ví dụ cho r.v's Exponential.

n

S=11ni=1nXi

nXiExp(λ)n

i=1nXiGamma(n,θ)

θ=1λ

1nGamma(n,θ)Gamma(n,θn)

S

SInvGamma(n,nθ)

Phương sai (và độ lệch chuẩn) của rv này được biết đến, xem, ví dụ ở đây .


3
định nghĩa của bạn cho điều hòa có nghĩa là không đồng ý với wikipedia
mpiktas

Sử dụng hàm mũ là một cách tiếp cận tốt để hiểu vấn đề.
whuber

1
Tất cả hy vọng không hoàn toàn bị mất. Nếu Xi ~ Exp (\ lambda) thì Xi ~ Gamma (1, \ lambda) nên 1 / Xi ~ InvGamma (1, 1 / \ lambda). Sau đó, sử dụng "V. Witkovsky (2001) Tính toán phân phối tổ hợp tuyến tính của các biến gamma ngược, Kybernetika 37 (1), 79-90" và xem bạn đi được bao xa!
tristan

0

1/X1/XXX11/X1


0

σ=Ni=1N(1x^1xi)2,

x^=N1xix^=N1xix

1N(x^xi)2x^x^x^=μ=1Nxi

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.