Một sẽ khoảng tin cậy cho phương sai được hẹp hơn nếu chúng ta biết một tiên nghiệm trung bình?


8

Hãy nói rằng chúng ta biết ý nghĩa của một phân phối nhất định. Điều này có ảnh hưởng đến ước tính khoảng của phương sai của một biến ngẫu nhiên (được tính bằng cách sử dụng phương sai mẫu) không? Như trong, chúng ta có thể có được một khoảng nhỏ hơn cho cùng một mức độ tin cậy không?


Tôi đã cập nhật đáng kể câu trả lời của mình, nghĩ rằng nó trả lời đầy đủ câu hỏi của OP bây giờ. Sự khác biệt giữa câu trả lời của tôi và các câu trả lời khác là do tôi đã ngầm sử dụng các phương sai có điều kiện. Bây giờ tôi làm cho họ rõ ràng. Về cơ bản, khi bạn nói về khoảng tin cậy của công cụ ước tính phương sai, bạn phải tính đến kiến ​​thức về dân số.
Aksakal

Có vẻ như câu hỏi phải là "chúng ta có thể có được một khoảng chính xác hơn cho cùng một mức độ tin cậy không".
Gregor Thomas

Câu trả lời:


12

Tôi không hoàn toàn chắc chắn câu trả lời của tôi là đúng, nhưng tôi sẽ cho rằng không có mối quan hệ chung. Đây là quan điểm của tôi:

Hãy để chúng tôi nghiên cứu trường hợp khoảng tin cậy của phương sai được hiểu rõ, viz. lấy mẫu từ một phân phối bình thường (như bạn chỉ ra trong thẻ câu hỏi, nhưng không thực sự là chính câu hỏi). Xem các cuộc thảo luận ở đâyở đây .

Một khoảng tin cậy cho sau từ trục T = n σ 2 / σ 2 ~ χ 2 n - 1 , nơi σ 2 = 1 / n Σ i ( X i - ˉ X ) 2 . (Đây chỉ là một cách khác để viết các biểu hiện có thể là quen thuộc hơn T = ( n - 1 ) s 2 / σ 2 ~ χσ2T= =nσ^2/σ2~χn-12σ^2= =1/nΣTôi(XTôi-X¯)2 , nơis2=1/(n-1)Σi(Xi- ˉ X )2.)T= =(n-1)S2/σ2~χn-12S2= =1/(n-1)ΣTôi(XTôi-X¯)2

Do đó, chúng ta có Do đó, một khoảng tin cậy là(nσ2/cn-1u,nσ2/cn-1l). Chúng tôi có thể chọncn-1lcn-1unhư quantilescn-1u=χ2n-1,1

1-α= =Pr{ctôin-1<T<cbạnn-1}= =Pr{ctôin-1nσ^2<1σ2<cbạnn-1nσ^2}= =Pr{nσ^2cbạnn-1<σ2<nσ^2ctôin-1}
(nσ^2/cbạnn-1,nσ^2/ctôin-1)ctôin-1cbạnn-1c n - 1 l =χ 2 n - 1 , α / 2 .cbạnn-1= =χn-1,1-α/22ctôin-1= =χn-1,α/22

(Lưu ý rằng bất kỳ phương sai nào ước tính rằng, vì phân phối bị lệch, các lượng tử sẽ mang lại một ci với xác suất bao phủ đúng, nhưng không phải là tối ưu, tức là không phải là ngắn nhất có thể. càng ngắn càng tốt, chúng tôi yêu cầu mật độ phải giống hệt nhau ở đầu dưới và trên của ci, với một số điều kiện bổ sung như không đồng nhất. Tôi không biết nếu sử dụng ci tối ưu đó sẽ thay đổi mọi thứ trong câu trả lời này.)χ2

Như đã giải thích trong các liên kết, , nơi s 2 0 = 1T'= =nS02/σ2~χn2sử dụng giá trị trung bình đã biết. Do đó, chúng tôi nhận được khoảng tin cậy hợp lệ 1 - αS02= =1nΣTôi(XTôi-μ)2 Ở đây,cnlcnusẽ là các lượng tử từphân phốiχ2n.

1-α= =Pr{ctôin<T'<cbạnn}= =Pr{nS02cbạnn<σ2<nS02ctôin}
ctôincbạnnχn2

Chiều rộng của khoảng tin cậy là wT=ns 2 0 (c n u -c n l )

wT= =nσ^2(cbạnn-1-ctôin-1)ctôin-1cbạnn-1
Chiều rộng tương đối là wT
wT'= =nS02(cbạnn-ctôin)ctôincbạnn
Chúng ta biết rằng σ 2/s 2 01mẫuGiảm thiểu trung bình tổng của độ lệch bình phương. Ngoài ra, tôi thấy vài kết quả chung về chiều rộng của khoảng thời gian, như tôi không nhận thức được kết quả rõ ràng cách khác biệt và các sản phẩm của thượng và hạ thấpχ2quantiles cư xử như chúng ta tăng mức độ tự do của một (nhưng xem hình sự phía dưới).
wTwT'= =σ^2S02cbạnn-1-ctôin-1cbạnn-ctôinctôincbạnnctôin-1cbạnn-1
σ^2/S021χ2

Ví dụ: để

chúng ta có

rn: =cbạnn-1-ctôin-1cbạnn-ctôinctôincbạnnctôin-1cbạnn-1,

cho α = 0,05 n = 10 , có nghĩa là ci dựa trên σ 2 sẽ ngắn hơn nếu σ 2s 2 0

r101.226
α= =0,05n= =10σ^2
σ^2S021.226

Sử dụng mã dưới đây, tôi đã thực hiện một nghiên cứu mô phỏng nhỏ cho thấy rằng khoảng thời gian dựa trên sẽ giành phần lớn thời gian. (Xem liên kết được đăng trong câu trả lời của Aksakal để biết cách hợp lý hóa mẫu lớn của kết quả này.)S02

Xác suất dường như ổn định trong , nhưng tôi không biết về một lời giải thích mẫu hữu hạn phân tích:n

nhập mô tả hình ảnh ở đây

    rm(list=ls())

IntervalLengthsSigma2 <- function(n,alpha=0.05,reps=100000,mu=1) {
  cl_a <- qchisq(alpha/2,df = n-1)
  cu_a <- qchisq(1-alpha/2,df = n-1)
  cl_b <- qchisq(alpha/2,df = n)
  cu_b <- qchisq(1-alpha/2,df = n)

  winners02 <- rep(NA,reps)

  for (i in 1:reps) {
    x <- rnorm(n,mean=mu)
    xbar <- mean(x)
    s2 <- 1/n*sum((x-xbar)^2)
    s02 <- 1/n*sum((x-mu)^2)

    ci_a <- c(n*s2/cu_a,n*s2/cl_a)
    ci_b <- c(n*s02/cu_b,n*s02/cl_b)

    winners02[i] <- ifelse(ci_a[2]-ci_a[1]>ci_b[2]-ci_b[1],1,0)  
  }
  mean(winners02)
}

nvalues <- matrix(seq(5,200,by=10)) 
plot(nvalues,apply(nvalues,1,IntervalLengthsSigma2),pch=19,col="lightblue",type="b")

Các lô con số tiếp theo chống lại n , để lộ (như trực giác sẽ đề nghị) rằng tỷ lệ này có xu hướng 1. As, hơn nữa, ˉ Xp μ cho n lớn, sự khác biệt giữa độ rộng của hai cis do đó sẽ tan biến như n . (Xem lại liên kết được đăng trong câu trả lời của Aksakal để hợp lý hóa mẫu lớn cho kết quả này.)rnnX¯pμnn

nhập mô tả hình ảnh ở đây


1
Giải pháp tốt, nhưng bạn có thể nói chiều rộng nào có nhiều khả năng giành chiến thắng?
martianwars

1
wT/wT'wT-wT'

1
T= =nσ^2/σ2~χn-12T'= =nS02/σ2~χn2

1
μ

1
nkμsσ^k

7

Hãy để tôi đầu tiên thiết lập vấn đề. Chúng tôi biết dân số có nghĩa. Đây là một điểm rất quan trọng để thực hiện ngay từ đầu, bởi vì không có nó, chúng ta sẽ không có câu trả lời có ý nghĩa.

σ= =1n-1SbạnmTôi(xTôi-x¯)2

μ

σ'= =1nSbạnmTôi(xTôi-μ)2

Lưu ý rằng bây giờ nó là một công cụ ước tính khác nhau! Nó có mẫu số khác nhau, vv Nó có một phương sai khác nhau .

Vmộtr[σ]Vmộtr[σ']

Vmộtr[σ|E[xTôi]= =μ]Vmộtr[σ'|E[xTôi]= =μ]

E[xTôi]= =μVmộtr[σ]μσx¯>>μσ

Do đó, câu trả lời của tôi ở đây tuân theo các thiết lập mà tôi đã mô tả.

Có, khoảng tin cậy sẽ hẹp hơn.

Về mặt triết học, biết trung bình của dân số là một thông tin bổ sung, vì vậy sự không chắc chắn phải nhỏ hơn trong trường hợp này.

Ví dụ: nếu phân phối của bạn là Poisson, thì phương sai là trung bình bằng nhau. Do đó, biết có nghĩa là bạn cũng biết phương sai và khoảng tin cậy co lại thành một điểm. Không có khoảng cách.

1n-1ΣTôi(xTôi-x¯)21nΣTôi(xTôi-μ)2

Tôi nghĩ rằng bài viết này là câu trả lời dứt khoát cho câu hỏi của bạn.


đó không phải là mâu thuẫn với câu trả lời của tôi (ít nhất là trong tính tổng quát đó - tôi chắc chắn đồng ý với ví dụ Poisson tốt đẹp)?
Christoph Hanck

1
Chà, có một sự khác biệt giữa độ dài dự kiến của khoảng tin cậy và độ dài của khoảng tin cậy mà bạn có thể tính được từ một tập dữ liệu cụ thể (xem xét điều gì xảy ra khi trung bình mẫu rất khác với trung bình dân số thực) .
Scortchi - Phục hồi Monica

+1, quan điểm của bạn về phân phối Poisson (& phân phối trong đó phương sai là một hàm của giá trị trung bình nói chung) là một điểm tốt. Tuy nhiên, lưu ý rằng OP dường như có phân phối bình thường trong tâm trí, và như câu trả lời của @ ChristophHanck cho thấy, tình hình phức tạp hơn ở đó.
gung - Phục hồi Monica

@Scortchi, xem câu trả lời của tôi cho nhận xét của bạn. Ý chính của nó: chúng tôi đang trả lời các câu hỏi khác nhau. Tôi đang so sánh các công cụ ước tính KHÁC theo giả định CÙNG về ý nghĩa dân số đã biết.
Aksakal

2
Var[σ|E[xTôi]= =μ]Var[σ|x¯= =μ]

3

Mở rộng câu trả lời của @Cristoph Hanck một chút và điều chỉnh mã của anh ấy

TT'ww

nhập mô tả hình ảnh ở đây

TT'

IntervalLengthsSigma2 <- function(n,alpha=0.05,reps=100000,mu=1) {
  cl_a <- qchisq(alpha/2,df = n-1)
  cu_a <- qchisq(1-alpha/2,df = n-1)
  cl_b <- qchisq(alpha/2,df = n)
  cu_b <- qchisq(1-alpha/2,df = n)

  winners02 <- rep(NA,reps)
  width.a <- rep(NA,reps)
  width.b <- rep(NA,reps)
  sigma2.in.a <- rep(NA,reps)
  sigma2.in.b <- rep(NA,reps)

  for (i in 1:reps) {
    x <- rnorm(n,mean=mu)
    xbar <- mean(x)
    s2 <- 1/n*sum((x-xbar)^2)
    s02 <- 1/n*sum((x-mu)^2)

    ci_a <- c(n*s2/cu_a,n*s2/cl_a)
    ci_b <- c(n*s02/cu_b,n*s02/cl_b)

    winners02[i] <- ifelse(ci_a[2]-ci_a[1]>ci_b[2]-ci_b[1],1,0) 
    ci_a[2]-ci_a[1] -> width.a[i]
    ci_b[2]-ci_b[1] -> width.b[i]
    ifelse(ci_a[1]< 1 & ci_a[2] > 1, 1, 0) -> sigma2.in.a[i]
    ifelse(ci_b[1]< 1 & ci_b[2] > 1, 1, 0) -> sigma2.in.b[i]
  }

 list(n=n, width.a=width.a,width.b=width.b, sigma2.in.a=sigma2.in.a, sigma2.in.b=sigma2.in.b, winner=winners02)
}

# simulate for sample size of 6
IntervalLengthsSigma2(n=6) -> sim

# plot empirical CDFs of CI widths for mean known & mean unknown
plot(ecdf(sim$width.a), xlab="CI width", ylab="empirical CDF", sub=paste("n=",sim$n), main="")
lines(ecdf(sim$width.b), col="red")
legend("bottomright", lty=1, col=c("black", "red"), legend=c("mean unknown (Mr A)", "mean known (Mr B)"))

# coverage with mean unknown:
mean(sim$sigma2.in.a)
# coverage with mean unknown when CI is narrower than with mean known:
mean(sim$sigma2.in.a[sim$winner==0])
# coverage with mean unknown when CI is wider than with mean known:
mean(sim$sigma2.in.a[sim$winner==1])

# coverage with mean known:
mean(sim$sigma2.in.b)
# coverage with mean known when CI is wider than with mean unknown:
mean(sim$sigma2.in.b[sim$winner==0])
# coverage with mean known when CI is narrower than with mean unknown;
mean(sim$sigma2.in.b[sim$winner==1])

2

Tôi không thể bình luận nhưng tuyên bố sâu rộng của Aksakal "biết ý nghĩa của dân số là một thông tin bổ sung, vì vậy sự không chắc chắn phải nhỏ hơn trong trường hợp này" là không rõ ràng.

μ

1nΣTôi= =1n(XTôi-X¯)2

có phương sai thấp hơn đồng đều

1nΣTôi= =1n(XTôi-μ)2

μ,σ


Bạn đã đọc bài báo trong câu trả lời của tôi?
Aksakal

Không, nhưng phương sai mẫu không thiên vị mà bạn đề cập trong bản cập nhật của bạn không phải là công cụ ước tính khả năng tối đa, vì vậy tôi không chắc rằng giấy có liên quan. Bạn có thể làm một nghiên cứu mô phỏng nhanh để xác minh yêu cầu của tôi.
Rand Forrester

μμ

2
Aksakal, tôi đang nói về việc so sánh phương sai lấy mẫu của MLE của σ^μμ

3
μσμ
1nΣ(XTôi-μ)2
σμ
1nΣ(XTôi-X¯)2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.