NGÂN HÀNG:
Tiền thưởng đầy đủ sẽ được trao cho người cung cấp tài liệu tham khảo cho bất kỳ bài báo được xuất bản nào sử dụng hoặc đề cập đến công cụ ước tính dưới đây.
Động lực:
Phần này có lẽ không quan trọng đối với bạn và tôi nghi ngờ nó sẽ không giúp bạn nhận được tiền thưởng, nhưng vì có ai đó hỏi về động lực, đây là những gì tôi đang làm.
Tôi đang làm việc trên một vấn đề lý thuyết đồ thị thống kê. Đối tượng giới hạn đồ thị dày đặc tiêu chuẩn là một hàm đối xứng theo nghĩa . Lấy mẫu một đồ thị trên đỉnh có thể được coi là lấy mẫu giá trị đồng nhất trên khoảng đơn vị ( cho ) và sau đó xác suất của một cạnh là . Hãy để cho kết quả là ma trận kề được gọi là .
Thật không may, phương pháp mà tôi tìm thấy cho thấy tính nhất quán khi chúng tôi lấy mẫu từ phân phối với mật độ . Cách được xây dựng yêu cầu tôi lấy mẫu một lưới các điểm (trái ngược với việc lấy các điểm rút ra từ ban đầu ). Trong số liệu thống kê này. Câu hỏi của tôi, tôi đang hỏi về vấn đề 1 chiều (đơn giản hơn) về những gì xảy ra khi chúng ta chỉ có thể lấy mẫu Bernoullis trên lưới như thế này thay vì lấy mẫu trực tiếp từ phân phối.
tài liệu tham khảo cho giới hạn đồ thị:
L. Lovasz và B. Szegedy. Giới hạn của chuỗi đồ thị dày đặc ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos và K. Vesztergombi. Trình tự hội tụ của đồ thị dày đặc i: Tần số đồ thị, thuộc tính số liệu và kiểm tra. ( arxiv ).
Ký hiệu:
Xem xét phân phối liên tục với cdf và pdf có hỗ trợ tích cực trong khoảng . Giả sử không có pointmass, là ở khắp mọi nơi khả vi, và cũng là là supremum của trên khoảng . Đặt có nghĩa là biến ngẫu nhiên được lấy mẫu từ phân phối . là iid các biến ngẫu nhiên thống nhất trên .
Vấn đề được đặt ra:
Thông thường, chúng ta có thể để cho là các biến ngẫu nhiên với phân phối và làm việc với thường lệ hàm phân bố thực nghiệm như F n ( t ) = 1
Thật không may, tôi không thể để vẽ mẫu trực tiếp từ . Tuy nhiên, tôi biết rằng e đã hỗ trợ tích cực chỉ trên [ 0 , 1 ] , và tôi có thể tạo ra các biến ngẫu nhiên Y 1 , ... , Y n nơi Y i là một biến ngẫu nhiên với một phân phối với xác suất thành công Bernoulli p i = f ( ( i - 1 + U i ) / n ) / c trong đó c và
Câu hỏi:
Từ (những gì tôi nghĩ nên) dễ nhất đến khó nhất.
Có ai biết nếu điều này (hoặc một cái gì đó tương tự) có một cái tên? Bạn có thể cung cấp một tài liệu tham khảo nơi tôi có thể thấy một số thuộc tính của nó?
Như , là ~ F n ( t ) là một ước lượng nhất quán của F ( t ) (và có thể giúp bạn chứng minh điều đó)?
Sự phân bố hạn chế của là gì như n → ∞ ?
Lý tưởng nhất, tôi muốn ràng buộc sau đây là một hàm của - ví dụ, O P ( log ( n ) / √, nhưng tôi không biết sự thật là gì. CácOPlà viết tắt củaBig O trong khả năng
Một số ý tưởng và ghi chú:
Điều này trông rất giống như lấy mẫu từ chối chấp nhận với phân tầng dựa trên lưới. Lưu ý rằng không phải vì chúng tôi không vẽ mẫu khác nếu chúng tôi từ chối đề xuất.
Tôi khá chắc chắn điều này là thiên vị. Tôi nghĩ rằng thay thế ~ F * n ( t ) = c là không thiên vị, nhưng nó có tính chất khó chịu màP( ~ F * (1)=1)<1.
Tôi quan tâm đến việc sử dụng làm công cụ ước tính trình cắm . Tôi không nghĩ rằng đây là thông tin hữu ích, nhưng có lẽ bạn biết một số lý do tại sao nó có thể.
Ví dụ trong R
Dưới đây là một số mã R nếu bạn muốn so sánh phân phối theo kinh nghiệm với . Xin lỗi, một số vết lõm là sai ... Tôi không thấy cách khắc phục.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
CHỈNH SỬA:
CHỈNH SỬA 1 -
Tôi đã chỉnh sửa nó để giải quyết ý kiến của @ whuber.
CHỈNH SỬA 2 -
Tôi đã thêm mã R và làm sạch nó thêm một chút. Tôi đã thay đổi ký hiệu một chút để dễ đọc, nhưng về cơ bản là giống nhau. Tôi đang lên kế hoạch đưa tiền thưởng vào việc này ngay khi tôi được phép, vì vậy xin vui lòng cho tôi biết nếu bạn muốn làm rõ thêm.
EDIT 3 -
Tôi nghĩ rằng tôi đã giải quyết nhận xét của @ hồng y. Tôi đã sửa lỗi chính tả trong tổng số biến thể. Tôi đang thêm một tiền thưởng.
EDIT 4 -
Đã thêm phần "động lực" cho @cardinal.