Phân phối thay thế theo kinh nghiệm


12

NGÂN HÀNG:

Tiền thưởng đầy đủ sẽ được trao cho người cung cấp tài liệu tham khảo cho bất kỳ bài báo được xuất bản nào sử dụng hoặc đề cập đến công cụ ước tính F~ dưới đây.

Động lực:

Phần này có lẽ không quan trọng đối với bạn và tôi nghi ngờ nó sẽ không giúp bạn nhận được tiền thưởng, nhưng vì có ai đó hỏi về động lực, đây là những gì tôi đang làm.

Tôi đang làm việc trên một vấn đề lý thuyết đồ thị thống kê. Đối tượng giới hạn đồ thị dày đặc tiêu chuẩn W:[0,1]2[0,1] là một hàm đối xứng theo nghĩa W(u,v)=W(v,u) . Lấy mẫu một đồ thị trên n đỉnh có thể được coi là lấy mẫu n giá trị đồng nhất trên khoảng đơn vị ( Ui cho i=1,,n) và sau đó xác suất của một cạnh (i,j)W(Ui,Uj) . Hãy để cho kết quả là ma trận kề được gọi là A .

Wf=W/WW>0fAfffAW

Thật không may, phương pháp mà tôi tìm thấy cho thấy tính nhất quán khi chúng tôi lấy mẫu từ phân phối với mật độ f . Cách A được xây dựng yêu cầu tôi lấy mẫu một lưới các điểm (trái ngược với việc lấy các điểm rút ra từ ban đầu f). Trong số liệu thống kê này. Câu hỏi của tôi, tôi đang hỏi về vấn đề 1 chiều (đơn giản hơn) về những gì xảy ra khi chúng ta chỉ có thể lấy mẫu Bernoullis trên lưới như thế này thay vì lấy mẫu trực tiếp từ phân phối.

tài liệu tham khảo cho giới hạn đồ thị:

L. Lovasz và B. Szegedy. Giới hạn của chuỗi đồ thị dày đặc ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos và K. Vesztergombi. Trình tự hội tụ của đồ thị dày đặc i: Tần số đồ thị, thuộc tính số liệu và kiểm tra. ( arxiv ).

Ký hiệu:

Xem xét phân phối liên tục với cdf F và pdf f có hỗ trợ tích cực trong khoảng [0,1] . Giả sử f không có pointmass, F là ở khắp mọi nơi khả vi, và cũng là supz[0,1]f(z)=c< là supremum của f trên khoảng [0,1] . Đặt XF có nghĩa là biến ngẫu nhiênX được lấy mẫu từ phân phốiF . Ui là iid các biến ngẫu nhiên thống nhất trên[0,1] .

Vấn đề được đặt ra:

Thông thường, chúng ta có thể để cho X1,,Xn là các biến ngẫu nhiên với phân phối F và làm việc với thường lệ hàm phân bố thực nghiệm như F n ( t ) = 1

F^n(t)=1ni=1nI{Xit}
trong đóIlà hàm chỉ thị. Lưu ý rằng phân phối thực nghiệm này F n(t)là chính nó ngẫu nhiên (trong đótlà cố định).F^n(t)t

Thật không may, tôi không thể để vẽ mẫu trực tiếp từ . Tuy nhiên, tôi biết rằng e đã hỗ trợ tích cực chỉ trên [ 0 , 1 ] , và tôi có thể tạo ra các biến ngẫu nhiên Y 1 , ... , Y n nơi Y i là một biến ngẫu nhiên với một phân phối với xác suất thành công Bernoulli p i = f ( ( i - 1 + U i ) / n ) / c trong đó cFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
c được định nghĩa ở trên. Vì vậy, Y iBern ( p i ) . Một cách rõ ràng mà tôi có thể ước tính F từ cácgiá trị Y i này là bằng cách lấy ˜ F n ( t ) = 1UiYiBern(pi)FYi nơilà hàm trần (có nghĩa là, chỉ cần lên tròn đến số nguyên gần nhất), và vẽ lại nếuΣ n i = 1 Yi=0(để tránh chia cho số 0 và làm cho vũ trụ sụp đổ). Lưu ý rằng ˜ F (t)cũng là một biến ngẫu nhiên vìYilà các biến ngẫu nhiên.
F~n(t)=1i=1nYii=1tnYi
i=1nYi=0F~(t)Yi

Câu hỏi:

Từ (những gì tôi nghĩ nên) dễ nhất đến khó nhất.

  1. Có ai biết nếu điều này (hoặc một cái gì đó tương tự) có một cái tên? Bạn có thể cung cấp một tài liệu tham khảo nơi tôi có thể thấy một số thuộc tính của nó?F~n

  2. Như , là ~ F n ( t ) là một ước lượng nhất quán của F ( t ) (và có thể giúp bạn chứng minh điều đó)?nF~n(t)F(t)

  3. Sự phân bố hạn chế của là gì như n ?F~n(t)n

  4. Lý tưởng nhất, tôi muốn ràng buộc sau đây là một hàm của - ví dụ, O P ( log ( n ) / n, nhưng tôi không biết sự thật là gì. CácOPlà viết tắt củaBig O trong khả năngOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Một số ý tưởng và ghi chú:

  1. Điều này trông rất giống như lấy mẫu từ chối chấp nhận với phân tầng dựa trên lưới. Lưu ý rằng không phải vì chúng tôi không vẽ mẫu khác nếu chúng tôi từ chối đề xuất.

  2. Tôi khá chắc chắn điều này là thiên vị. Tôi nghĩ rằng thay thế ~ F * n ( t ) = cF~n là không thiên vị, nhưng nó có tính chất khó chịu màP( ~ F * (1)=1)<1.

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Tôi quan tâm đến việc sử dụng làm công cụ ước tính trình cắm . Tôi không nghĩ rằng đây là thông tin hữu ích, nhưng có lẽ bạn biết một số lý do tại sao nó có thể.F~n

Ví dụ trong R

Dưới đây là một số mã R nếu bạn muốn so sánh phân phối theo kinh nghiệm với . Xin lỗi, một số vết lõm là sai ... Tôi không thấy cách khắc phục.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

đầu ra từ dữ liệu trên

CHỈNH SỬA:

CHỈNH SỬA 1 -

Tôi đã chỉnh sửa nó để giải quyết ý kiến ​​của @ whuber.

CHỈNH SỬA 2 -

Tôi đã thêm mã R và làm sạch nó thêm một chút. Tôi đã thay đổi ký hiệu một chút để dễ đọc, nhưng về cơ bản là giống nhau. Tôi đang lên kế hoạch đưa tiền thưởng vào việc này ngay khi tôi được phép, vì vậy xin vui lòng cho tôi biết nếu bạn muốn làm rõ thêm.

EDIT 3 -

Tôi nghĩ rằng tôi đã giải quyết nhận xét của @ hồng y. Tôi đã sửa lỗi chính tả trong tổng số biến thể. Tôi đang thêm một tiền thưởng.

EDIT 4 -

Đã thêm phần "động lực" cho @cardinal.


1
Câu hỏi của bạn bắt đầu trở nên mơ hồ ngay khi bạn đề cập đến các đối tượng không xác định và sử dụng một số ký hiệu bình dị. Chẳng hạn, xuất hiện sớm nhưng không có kết nối rõ ràng với F và chỉ bằng cách đọc thêm, chúng ta mới biết bạn nghĩ nó là "không phải là một bản phân phối rời rạc" - nhưng đó là loại đối tượng nào? Điều quan trọng, " sup z f ( z ) có nghĩa là gì?" Sup "thường có nghĩa là supremum nhưng có lẽ nó có liên quan đến sự hỗ trợ thiết yếu của phân phối? Bởi vì mọi thứ trong câu hỏi phụ thuộc vào ý nghĩa của những điều này, tôi không thể hiểu câu hỏi.fFsupzf(z)sup
whuber

1
Cảm ơn @whuber cho ý kiến ​​của bạn. Xin vui lòng cho tôi biết nếu câu hỏi sửa đổi vẫn còn khó hiểu.
dùng1448319

1
Aha! Đó là dấu hiệu đầu tiên tôi thấy rằng không cố định và bạn quan tâm đến sự không triệu chứng. Nếu đúng là bạn có thể linh hoạt chọn n , thì điều đó không mở ra vô số khả năng, chẳng hạn như lựa chọn thích nghi của các điểm mẫu (thay vì giới hạn ở một lưới cố định { i / n } )? Nó cũng thể hiện rõ bạn đang làm cho các giả định unstated, sao cho f là liên tục (tương đương, Fhoàn toàn liên tục ). Bạn có thể giả định gì khác về phân phối cơ bản F có thể giúp phân tích này? nn{i/n}fFF
whuber

2
piYi,ni=1,,npif(U)/cUlà một biến ngẫu nhiên thống nhất. Điều đó có đúng không? (Một chút bối cảnh cho câu hỏi của bạn có thể sẽ giải quyết được rất nhiều các truy vấn này.) Chúc mừng.
Đức Hồng Y

2
Câu hỏi này đã được cải thiện rất nhiều, tôi thậm chí không nhận ra nó cho đến khi tôi nhận ra tôi đã thấy các bình luận trước đó. Bây giờ nó là một câu hỏi thực sự thú vị và được viết tốt hơn nhiều.
Glen_b -Reinstate Monica

Câu trả lời:


1

Trong khi tài liệu tham khảo này

EDIT: THÊM GIỚI THIỆU VỀ RẤT NHIỀU THỐNG KÊ SIMILAR "Ước tính không đối xứng từ các quan sát không đầy đủ" EL Kaplan và Paul Meier, Tạp chí của Hiệp hội Thống kê Hoa Kỳ, Tập. 53, số 282 (tháng sáu, 1958), trang 457-481

[0,1][0,)

Ước tính độ lệch sẽ có thể thực hiện được khi bạn có ước tính hợp lý về phân phối thông qua làm mịn kernel nếu nó hoạt động đủ tốt (xem, ví dụ, chuyển đổi Khmaladze trên Wikipedia).

f=W/WA


Chào mừng đến với trang web, James. Tôi mong muốn được nhìn thấy nhiều đóng góp của bạn.
Đức hồng y

0

Điều này trả lời câu hỏi 2 và 3 ở trên. Tôi vẫn thực sự muốn một tài liệu tham khảo mặc dù (từ câu hỏi 1).

Yi=0

g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
where the subscripts denote the derivatives. Recall pi=f((i1+Ui)/n)/c. Let
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
So note that μR+μS=c1F(t)+c1(1F(t))=c1 and g(μR,μS)=F(t). Also,
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Note that  Cov(R,S)=0 by independence of the Yis.

Now, we use a taylor expansion to get

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
where
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
In particular, we get
n(F~n(t)F(t))dN(0,VF(t))

Please comment if you see something wrong with this.

EDITS:

Edit 1 --

Fixed a typo in VF(t). Thanks @cardinal for your suggestion in the comments about question 4.

Edit 2 --

Fixed plenty of typos: I had c1 where I should have had c in many places. I still need to address @cardinal's response about Yi=0.


1
Kính gửi @user: Đây là đi đúng hướng; Đây là một vài gợi ý. ( 1 ) Giá trị trung bình củaF~n(t) không tồn tại, ít nhất là không cho đến khi bạn chỉ định điều gì xảy ra khi ΣTôiYTôi= =0, vì vậy, nói đúng các phân tích trong câu trả lời là không chính xác. Xác định một hành vi ở mức 0 sẽ phá vỡ cấu trúc độc lập, nhưng tất cả không bị mất. ( 2 ) Về cơ bản, những gì bạn đang làm là áp dụng phương pháp delta đa biến. Lưu ý rằng điều này không yêu cầu sự tồn tại của giá trị trung bình củaF~n(t), vì vậy nó sẽ sạch hơn (và chính xác hơn) nếu bạn đi theo con đường này.
Đức Hồng Y

2
( 3 ) Mục 4 trong danh sách của bạn được xử lý như sau. Lưu ý rằng
bữa tốiC[0,1]C|F~-F|bữa tối[0,1]|F~-F~|+01|F~-EF~|+Ôi(n-1).
Thuật ngữ đầu tiên ở phía bên tay phải, {ΣTôiYTôi>0}, Là |1-cn-1ΣTôiYTôi|rõ ràng Ôip(n-1/2). Bạn chỉ còn lại để đối phó với trung hạn, nhưng điều đó dễ dàng bị khuất phục trước sự bất bình đẳng của Markov và sau đó là của Jensen và cũng làÔip(n-1/2).
hồng y

Kính gửi @user: Sẽ rất hữu ích khi thấy một số chi tiết hơn cho nhận xét của bạn về việc không cần phải xem xét trường hợp ΣTôiYTôi= =0. Những gì bạn đang mô tả là lấy mẫu có điều kiện. CácYTôi có điều kiện trên {ΣTôiYTôi>0}không độc lập (hoặc điều kiện độc lập), do đó (ngầm) phân tích trong câu trả lời không giữ. Nó có thể hữu ích để xem xétn= =2 trường hợp để thấy điều này (chỉ cần vẽ 2×2 bàn).
Đức Hồng Y

Là một bổ sung sang một bên, có thể đáng chú ý rằng bữa tốiCC|F~-F|= =01|F~-F|, vì vậy định nghĩa này có thể được đơn giản hóa.
Đức Hồng Y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.