Khoảng tin cậy trên một số lượng ngẫu nhiên?


8

Giả sử là một -vector không xác định và người ta quan sát . Tôi muốn tính khoảng tin cậy theo số lượng ngẫu nhiên , chỉ dựa trên tham số và tham số đã biết . Nghĩa là, đối với một , hãy tìm sao cho .apbN(a,I)babpα(0,1)c(b,p,α)Pr(bac(b,p,α))=α

Đây là một câu hỏi kỳ lạ bởi vì tính ngẫu nhiên đóng góp vào khoảng tin cậy cũng ảnh hưởng đến . Cách tiếp cận đơn giản là tuyên bố rằng, có điều kiện trên , , do đó , nhưng tôi không nghĩ rằng điều này sẽ cung cấp một CI phù hợp vì bị sai lệch cho , là giá trị mong đợi của . ( , tùy theo tỷ lệ, một RV vuông góc không trung tâm, với tham số không tập trung tùy thuộc vàobbaN(b,I)baN(bb,bbI)bbaababbaa ; giá trị mong đợi của nó không phải là .)aa

lưu ý : Vô điều kiện, và \ vec {b} ^ {\ top} \ vec {b} \ sim \ chi \ left (p, \ vec {a} ^ {\ top} \ vec {a} \ right) , có nghĩa là nó là một biến ngẫu nhiên chi bình phương không trung tâm. Do đó \ vec {b} ^ {\ top} \ vec {b} - p là ước tính không thiên vị về giá trị trung bình của \ vec {a} ^ {\ top} \ vec {b} và phương sai của nó. Cái sau có phần vô dụng, vì nó có thể là tiêu cực!baN(aa,aa)bbχ(p,aa)bbpab

Tôi đang tìm kiếm bất kỳ và tất cả các cách hợp lý để tiếp cận vấn đề này. Chúng có thể bao gồm:

  1. Độ tin cậy phù hợp bị ràng buộc, đó là một hàm của được quan sát và biết sao cho cho tất cả và tất cả sao cho . Chỉnh sửa Điều tôi muốn nói là, nếu bạn đã sửa và sau đó rút ngẫu nhiên , xác suất là dưới các lần rút lặp lại của . Vì vậy, ví dụ: nếu bạn đã sửacbpPr(bac(b,p,α))=ααaaa>0abbac(b,p,α)0αbavà sau đó đã vẽ độc lập , sau đó tỷ lệ của sao cho sẽ tiếp cận khi số lượng bản sao chuyển sang .biibiac(bi,p,α)α
  2. Một niềm tin bị ràng buộc 'trong sự mong đợi'. Đây là một hàm của được quan sát và và sao cho giá trị mong đợi vô điều kiện của nó là quantile của cho tất cả .bpααbaa:aa>0
  3. Một số loại giải pháp Bayes mà tôi có thể chỉ định một sane trước trên , sau đó, đưa ra quan sát , nhận được một hậu thế trên cả và .aabbbaa

chỉnh sửa Hình thức ban đầu của câu hỏi này có hiệp phương sai của là , tuy nhiên tôi tin rằng wlog người ta chỉ có thể giả sử , vì vậy tôi đã chỉnh sửa tất cả đề cập đến .b1nIn=1n


"Khoảng tin cậy" trên số lượng ngẫu nhiên thường được đặt tên là "khoảng dự đoán".
kjetil b halvorsen

1
@kjetilbhalvorsen: đây không phải là câu hỏi liên quan đến các khoảng dự đoán, ước tính "một khoảng thời gian mà các quan sát trong tương lai sẽ giảm", theo Wikipedia. Các vector đã đã được quan sát thấy. b
shabbychef

1
Tôi không thể thấy làm thế nào đi vào điều này cả. Bạn có thể vui lòng làm rõ? p
Ben - Tái lập Monica

1
@Ben là độ dài của vectơ và . a bpab
shabbychef

1
Số liệu thống kê @Whuber.stackexchange.com/questions/ 389624
Sextus Empiricus

Câu trả lời:


5

Chế độ xem hình học của sự cố và phân phối của và | b | 2ba|b|2

Dưới đây là quan điểm hình học của vấn đề. Hướng của a không thực sự quan trọng và chúng ta chỉ có thể sử dụng độ dài của các vectơ này |a||b|trong đó cung cấp cho tất cả các thông tin cần thiết.

xem hình học

Sự phân bố của độ dài chiếu vector của b vào a sẽ ba/|a|N(|a|,1) liên quan đến số lượng mà bạn đang tìm kiếm

baN(|a|2,|a|2)

Chúng ta có thể suy luận thêm rằng chiều dài bình phương của vectơ mẫu |b|2 có sự phân bố một phi trung tâm chi-squared phân phối , với mức độ tự do p và noncentrality tham số k=1pμk2=|a|2

|b|2χp,|a|22

hơn nữa

(|b|2(ba)2|a|2)conditional on ba and |a|2χp12

Đây cuối cùng biểu hiện cho thấy ước tính khoảng cho ba thể , từ một quan điểm nhất định, được xem như một khoảng tin cậy, bởi vì ba có thể được xem như là một tham số trong sự phân bố của |b|2 . Nhưng nó phức tạp vì có một tham số phiền toái |a|2 , và cũng là tham số ba là itselve một biến ngẫu nhiên, liên quan đến |a|2 .

Sơ đồ phân phối và một số phương pháp để xác định một c(b,p,α)

lô phân phối chung

Trong hình trên, chúng tôi âm mưu cho một khu vực 95% bằng cách sử dụng quyền β1 phần của sự phân bố của N(|a|2,|a|2) và đỉnh β2 phần của phân phối chuyển của χp12 ví dụ rằng β1β2=0.05

Bây giờ lừa lớn là để vẽ một số dòng c(|β|2,p,α) mà tiếp giáp với điểm như vậy mà cho bất kỳ a có một phần nhỏ 1α trong những điểm (ít nhất) mà là dưới dòng .

nhiều a

Bên dưới dòng là nơi khu vực thành công và chúng tôi muốn điều này xảy ra ít nhất là phần 1α của thời gian. (xem thêm Logic cơ bản của việc xây dựng khoảng tin cậychúng ta có thể từ chối một giả thuyết null với các khoảng tin cậy được tạo ra thông qua lấy mẫu chứ không phải giả thuyết null? cho lý do tương tự nhưng trong một thiết lập đơn giản hơn).

Có thể nghi ngờ rằng chúng ta có thể thành công để có được tình huống:

|a|:Pr(bac(b,p,α))=α

Nhưng chúng ta nên luôn luôn có thể nhận được một số kết quả như

|a|:Pr(bac(b,p,α))α

hoặc nghiêm ngặt hơn giới hạn trên nhỏ nhất của tất cả các Pr(bac(b,p,α)) bằng với α

sup{Pr(bac(b,p,α)):|a|0}=α

Cho dòng trong ảnh có bội |a|chúng tôi sử dụng đường chạm vào các đỉnh của các vùng đơn lẻ để xác định hàm c(|b|,p,α). Bằng cách sử dụng những đỉnh núi chúng tôi nhận được rằng các vùng gốc, được dự định là nhưα=β1β2không được tối ưu bảo hiểm. Thay vào đó, điểm ít tụt xuống dưới mức (doα>β1β2). Dành cho nhỏ|a|đây sẽ là phần hàng đầu, và cho lớn |a|đây sẽ là phần đúng Vì vậy, bạn sẽ nhận được:

|a|<<1:Pr(bac(b,p,α))β2|a|>>1:Pr(bac(b,p,α))β1

sup{Pr(bac(b,p,α)):|a|0}max(β1,β2)

Vì vậy, đây vẫn là một chút công việc trong tiến trình. Một cách khả thi để giải quyết tình huống có thể là có một số chức năng tham số mà bạn tiếp tục cải thiện bằng cách dùng thử và lỗi sao cho dòng không đổi hơn (nhưng nó sẽ không sâu sắc lắm). Hoặc có thể người ta có thể mô tả một số chức năng khác biệt cho dòng / chức năng.

alpha hiệu quả

# find limiting 'a' and a 'b dot a'  as function of b² 
f <- function(b2,p,beta1,beta2) {
  offset <- qchisq(1-beta2,p-1)
  qma <- qnorm(1-beta1,0,1)
  if (b2 <= qma^2+offset) {
    xma = -10^5
  } else {
    ysup <- b2 - offset - qma^2
    alim <- -qma + sqrt(qma^2+ysup) 
    xma <- alim^2+qma*alim
  }
    xma
}  
fv <- Vectorize(f)  

# plot boundary
b2 <- seq(0,1500,0.1)
lines(fv(b2,p=25,sqrt(0.05),sqrt(0.05)),b2)


# check it via simulations
dosims <- function(a,testfunc,nrep=10000,beta1=sqrt(0.05),beta2=sqrt(0.05)) {
  p <- length(a)
  replicate(nrep,{
    bee <- a + rnorm(p)
    bnd <- testfunc(sum(bee^2),p,beta1,beta2)
    bta <- sum(bee * a)
    bta <= bnd
  })
}

mean(dosims(c(1,rep(0,7)),fv))

### plotting
# vectors of |a| to be tried
las2 <- 2^seq(-10,10,0.5) 
# different values of beta1 and beta2
y1 <- sapply(las2,FUN = function(las2) 
  mean(dosims(c(las2,rep(0,24)),fv,nrep=50000,beta1=0.2,beta2=0.2)))
y2 <- sapply(las2,FUN = function(las2) 
  mean(dosims(c(las2,rep(0,24)),fv,nrep=50000,beta1=0.4,beta2=0.1)))
y3 <- sapply(las2,FUN = function(las2) 
  mean(dosims(c(las2,rep(0,24)),fv,nrep=50000,beta1=0.1,beta2=0.4)))

plot(-10,-10,
     xlim=c(10^-3,10^3),ylim=c(0,0.5),log="x",
     xlab = expression("|a|"), ylab = expression(paste("effective ", alpha)))

points(las2,y1, cex=0.5, col=1,bg=1, pch=21)
points(las2,y2, cex=0.5, col=2,bg=2, pch=21)
points(las2,y3, cex=0.5, col=3,bg=3, pch=21)

text(0.001,0.4,expression(paste(beta[2], " = 0.4   ", beta[1], " = 0.1")),pos=4)
text(0.001,0.25,expression(paste(beta[2], " = 0.2   ", beta[1], " = 0.2")),pos=4)
text(0.001,0.15,expression(paste(beta[2], " = 0.1   ", beta[1], " = 0.4")),pos=4)

title(expression(paste("different effective ", alpha, " for different |a|"))) 

là ngẫu nhiên nên hàm f ( bcũngngẫu nhiên. Tuy nhiên, tôi tin rằng người ta có thể xây dựng một hàm như vậy sao cho câu lệnh xác suất được giữ dưới dạng sao chép của thí nghiệm (đối với cố địnha ). f(b,p,α)a
shabbychef

Một cách để trả lời câu hỏi sẽ tìm thấy hàm như vậy P ( bmộtf ( b , p , α ) ) = α , nơi sao chép dưới một cố định fP(baf(b,p,α))=α , nhưng độc lập chứng ngộ củab . Tuy nhiên, trong thực tế, chúng ta sẽ chỉ quan sát mộtb . (Nhận ra rằngb chính nó có khả năng là một thống kê đủ được tính toán lại được tính toán qua một số nhận thức độc lập của một số thử nghiệm.)abbb
shabbychef

Xem thêm 'câu trả lời' của tôi, cho thấy đối với lớn , một thống kê nhất định là gần Bình thường, trong khi đối với các giá trị nhỏ của tham số này, nó giống như một hình vuông Chi (không thay đổi, thay đổi kích thước). Điều đó nói rằng, a là một tham số dân số chưa biết, vì vậy chúng tôi không biết cái nào đúng. Chúng ta có thể loại ước tính mộtmột từ số lượng bb , tuy nhiên. aaaaabb
shabbychef

Tôi không thấy lý do tại sao nằm ở cả hai phía của phương trình. Tuy nhiên, tôi sẽ cố gắng chỉnh sửa câu hỏi một lần nữa để hoàn toàn rõ ràng. b
shabbychef

1
Tôi đã đăng một câu trả lời không có thật với mã thực.
shabbychef

3

Tôi sẽ chuyển ký hiệu sang một cái gì đó quen thuộc hơn. Tôi hy vọng nó không gây nhầm lẫn.

Tôi không thấy làm thế nào người ta có thể ước tính hàm với một công cụ ước tính hoàn toàn không thiên vị. Nhưng tôi sẽ cung cấp một công cụ ước tính không thiên vị cho "một phần" của chức năng c và cung cấp một công thức cho sai lệch còn lại, để có thể đánh giá nó bằng mô phỏng.cc

Chúng tôi giả sử rằng chúng tôi có một vectơ ngẫu nhiên (cột) ngẫu nhiên chung bình thườngp

xN(μ,1nIp),μ=(μ1,...,μp)

Theo đặc điểm kỹ thuật của ma trận hiệp phương sai, các phần tử của vectơ ngẫu nhiên là độc lập.

Chúng tôi đang quan tâm đến các biến ngẫu nhiên đơn biến . Do tính quy tắc chung, biến này cũng có phân phối bình thườngY=xμ

YN(μμ,1nμμ)

vì thế

P(nYμμμμncμμμμ)=Φ(ncμμμμ)

nơi là tiêu chuẩn bình thường CDF, vàΦ()

Φ(ncμμμμ)=αncμμμμ=Φ1(α)=zα

(1)c=μμnza+μμ

Do đó chúng tôi cần phải có được ước tính cho và căn bậc hai của nó. Đối với mỗi phần tử của vectơ x , giả sử X k, chúng ta có n quan sát iid có sẵn, { x k 1 , . . . , x k n } . Vì vậy, cho mỗi phần tử của μ ' μ = ( μ 2 1 , . . . , L 2μμxXkn{xk1,...,xkn}chúng ta hãy thử ước lượngμμ=(μ12,...,μp2)

Est(μk2)=1ni=1nXki2

Công cụ ước tính này có giá trị dự kiến

E(1ni=1nXki2)=1ni=1nE(Xki2)=1ni=1n(Var(Xki)+[E(Xki)]2)

E(μk2^)=1ni=1n(1n+μk2)=1n+μk2

Vậy một công cụ ước lượng không thiên vị cho μki2

μk2^=1ni=1nXki21n

ngụ ý rằng

E[k=1p(1ni=1nXki21n)]=1nE(k=1pi=1nXki2)pn=μμ

và vì vậy mà

là một ước lượng không thiên vị củaμ

(2)θ^1nk=1pi=1nXki2pn
.μμ

Nhưng một công cụ ước tính không thiên vị cho dường như không tồn tại (một trong đó là hoàn toàn dựa trên số lượng được biết đến, đó là).μμ

Vì vậy, giả sử rằng chúng ta tiếp tục và ước tính c bởi

(3)c^=θ^nza+θ^

Sự thiên vị của công cụ ước tính này là

B(c^)=E(c^c)=zαn[E(θ^)μμ]>0

kết quả "thiên vị tích cực" do bất bình đẳng của Jensen.

Trong phương pháp này, kích thước của mẫu là rất quan trọng, vì nó làm giảm thiên vị đối với bất kỳ giá trị nhất định của μ . nμ

Hậu quả của sự thiên vị đánh giá quá cao này là gì? Giả sử rằng chúng ta được cho , p và chúng ta được yêu cầu tính giá trị tới hạn cho Y cho xác suất α , P ( Y c ) = αnpYαP(Yc)=α .

Với một chuỗi các mẫu, chúng tôi sẽ cung cấp một ước tính c mà, "trên trung bình" c > cc^c^>c .

Nói cách khác

P(YE(c^))=α>α=P(Yc)

Người ta có thể đánh giá bằng cách mô phỏng tầm quan trọng của sự thiên vị cho các giá trị khác nhau của , và làm thế nào, và bao nhiêu, nó làm méo mó kết quả.μ


Tôi tin rằng điều này hướng tới một CI không thiên vị (tùy chọn 2 trong bản chỉnh sửa của tôi) và tương tự về mặt tinh thần với câu trả lời không thỏa đáng của tôi. Tôi sẽ suy nghĩ về cách ước tính tốt hơn về độ lệch chuẩn có thể được xây dựng với thông tin có sẵn. Tôi nghĩ có lẽ một loạt Taylor có thể hoạt động. Ngoài ra, tôi không chắc chắn về các quan sát của x phần. Chúng ta có n = 1 wlog . nxn=1
shabbychef

Như bạn có thể thấy, giá trị của quan trọng khi nói đến sai lệch. Vì vậy, nó phụ thuộc vào những gì bạn có nghĩa là "không mất tính tổng quát". Một vấn đề thực tế hơn là nếu các công thức được cung cấp cho n = 1 , thì không nhất thiết phải rõ ràng chính xác họ nên tìm kiếm n chung như thế nào . Bây giờ chúng được cung cấp cho n chung để người ta có thể cắm bất kỳ giá trị nào của n và xem điều gì xảy rann=1nnn
Alecos Papadopoulos

Vấn đề là không có ; Nó chỉ có liên quan trong việc đưa ra nền tảng cho vấn đề, và tôi chỉ nên xóa nó khỏi câu hỏi. Bạn chỉ quan sát một b duy nhất (theo thuật ngữ của bạn, x , với n = 1 ). n bxn=1
shabbychef

Điều đó tạo ra không có vấn đề. Chỉ cần chèn bất cứ nơi nào n xuất hiện trong công thức của tôi. 1n
Alecos Papadopoulos

1

Một cách tiếp cận rằng hầu hết các công trình như sau: Lưu ý rằng 'trông giống'zc, trong đóclà một vectơ có độ dài đơn vị (thực tế làbđược chia tỷ lệ theo chiều dài đơn vị) vàz=b-aN(0,Tôi). Nếu nó là những trường hợp đóclà không phụ thuộc vàoz, sau đó người ta có thể khẳng định rằngbb+Zalpha(bbba)/bbzccbz=baN(0,I)cz làđộ tin cậy ràng buộcα, trong đóZαlàlượng tửαcủa bình thường.bb+ZαbbαZαα

Tuy nhiên, không phụ thuộc vào z . Nó có xu hướng được 'căn chỉnh với' z . Bây giờ, khi mộtmột » 1 , c là về cơ bản độc lập, và sự tự tin ràng buộc trên cho bảo hiểm thích hợp. Khi 0 < mộtmột « 1 , tuy nhiên, zcczzaa1c0<aa1zc là giống như một thay đổi, quy mô, không trung tâm chi-square biến ngẫu nhiên.

Một chút R mô phỏng chương trình ảnh hưởng của trên bình thường về số lượng ( bb - bmột ) / aa :(bbba)/bb

z.sim <- function(p,eff.size,nsim=1e5) {
    a <- matrix(eff.size * rnorm(p),nrow=p)
    b <- rep(a,nsim) + matrix(rnorm(p*nsim),nrow=p)
    atb <- as.matrix(t(a) %*% b)
    btb <- matrix(colSums(b * b),nrow=1)
    isZ <- (btb - atb) / sqrt(btb)
}

set.seed(99) 
isZ <- z.sim(6,1e3)
jpeg("isZ.jpg")
qqnorm(isZ)
qqline(isZ)
dev.off()

jpeg("isChi.jpg")
isZ <- z.sim(6,1e-3)
qqnorm(isZ)
qqline(isZ)
dev.off()

a'a trường hợp lớn một trường hợp nhỏ


Điều này trông giống như một đa biến gấp bình thường đối với tôi ...
shabbychef

Điều này sẽ không bay vì sự phân bố phụ thuộc vào chưa biết . Có lẽ người ta có thể thiết lập một trước về số lượng này mà sẽ dẫn đến một sau trên mộtb . aaab
shabbychef

1

Đối với trường hợp p=1 , chúng ta có thể tìm thấy một khoảng thời gian hai mặt. Trong trường hợp này, chúng ta có thể giả sử rằng 0<a là tham số dân số và chúng ta quan sát b=N(a,1).Chúng tôi muốn ràng buộc ab trong xác suất với một số chức năng của |b| (Chúng tôi chỉ có thể sử dụng giá trị tuyệt đối của b vì nó là một trong những tín hiệu tương tự chiều của bb chop>1trường hợp.)

Hãy ϕ là hàm mật độ bình thường, và để cho zα/2α/2 quantile của bình thường. Sau đó, trivially

ϕ(ba)I{|ab|zα/2}db=α.
Bây giờ lưu ý rằng |ab|là bất biến đối với phép nhân bên trong bằng ±1 , vì vậy chúng ta có thể nhân vớisign(b) . Đó là|ab|=|asign(b)|b||.Sử dụng cái này, sau đó nhân số lượng với|b|chúng ta có:
α=P(|asign(b)|b||zα/2),=P(|abb2|zα/2|b|),=P(ab[b2+zα/2|b|,b2zα/2|b|]).

Do đó, khoảng đối xứng [b2+zα/2|b|,b2zα/2|b|] có phạm vi bảo hiểm 1α của ab .

Hãy thử nghiệm với mã:

test_ci <- function(a,nsim=100000,alpha=0.05) {
  b <- rnorm(nsim,mean=a,sd=1)
  b_lo <- b^2 + abs(b) * qnorm(alpha/2)
  b_hi <- b^2 + abs(b) * qnorm(alpha/2,lower.tail=FALSE)
  ab <- a*b
  isout <- ab < b_lo | ab > b_hi
  mean(isout) 
}
# try twice, with a 'small' and with a 'large'
set.seed(1234)
test_ci(a=0.01)
set.seed(4321)
test_ci(a=3.00)

Tôi nhận được tỷ lệ danh nghĩa 0,05 loại I:

[1] 0.04983
[1] 0.04998

Không rõ làm thế nào để biến điều này thành một giải pháp cho trường hợp p>1 , nhưng tôi giả sử một số lượng giác và sử dụng phân phối t sẽ được áp dụng.


0

Một lần nữa, câu hỏi là để tìm chức năng c() như vậy mà, nếu bạn cố định a , sau đó dưới m độc lập thu hút của bi=a+zi , tỷ lệ i như rằng biac(bi,p,α) nên đến α như m .

Tôi sẽ đưa ra một giải pháp bị hỏng để minh họa cách thức hoạt động của mã này. Lưu ý đầu tiên mà bb là một tổ chức phi trung tâm chi-vuông với thông số không tính trung tâm λ=aa và df p . Vậy ta có

E[bb]=p+aa.
Bây giờ lưu ý rằng baN(aa,aa) . Vì vậy, nói riêng,
E[bbbap]=0.
Bỏ qua hiệp phương sai củababb (lúc nguy hiểm của riêng tôi), tôi không thểnhầm lẫncho rằng phương sai của số lượng này là
Var[bbbap]=aa+2(p+2aa)=2p+5aa.
Đưa những cùng tôi có thể làm cho lạ lùng và tuyên bố lố bịch rằngαquantile củabbbaplà khoảng
Zα2p+5aa.
Sau đó tôi không đúng có thể kết luận rằng
Pr(babbp+Zα2p+5aa)α.
Vì tôi không biếta , tôi có thể thay thế sau đó tiếp tục với hy vọngbb để đi đến
c(b,p,α)=bbp+Zα0(5bb3p),
chăm sóc tất nhiên để tránh việc ước tính mộtâmlệch chuẩn.

Điều này chắc chắn sẽ không hoạt động vì chúng tôi bỏ qua thuật ngữ hiệp phương sai. Tuy nhiên, vấn đề là thể hiện một số mã:

# my broken 'c' function
cfunc <- function(bee,p=length(bee),alpha=0.05) {
  lam <- sum(bee^2)
  sig <- sqrt(max(0,5*lam - 3*p))
  lam - p + qnorm(alpha) * sig
}
# check it via simulations
dosims <- function(a,testfunc,nrep=10000,alpha=0.05) {
  p <- length(a)
  replicate(nrep,{
    bee <- a + rnorm(p)
    bnd <- testfunc(bee,p,alpha)
    bta <- sum(bee * a)
    bta <= bnd
  })
}
options(digits=5)
set.seed(1234)
mean(dosims(rep(0.01,8),cfunc))
mean(dosims(rep(0.1,8),cfunc))
mean(dosims(rep(1,8),cfunc))

Tôi không nhận được gì như phạm vi bảo hiểm danh nghĩa 0.05 :

[1] 0.0011
[1] 0.0018
[1] 0.001

Bạn sẽ có thể cắm vào một sự tự tin làm việc bị ràng buộc cho testfunc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.