Khoảng tin cậy cho ECDF


8

Bất đẳng thức Dvoretzky Kiefer hạng Wolfowitz như sau:

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2) ,

và nó dự đoán mức độ chặt chẽ của một hàm phân phối được xác định theo kinh nghiệm đối với hàm phân phối mà từ đó các mẫu thực nghiệm được rút ra. Sử dụng bất đẳng thức này, chúng tôi có thể rút ra các khoảng tin cậy (CI) xung quanh (ECDF). Nhưng những CI này sẽ bằng nhau về khoảng cách xung quanh mọi điểm của ECDF.F^n(x)

Điều tôi tự hỏi, có cách nào khác để xây dựng một CI xung quanh ECDF không?

Đọc về thống kê theo thứ tự, chúng tôi thấy rằng phân phối tiệm cận của thống kê theo thứ tự là như sau:

công thức từ siêu liên kết

Bây giờ, trước hết, -index với những biểu tượng đó có ý nghĩa gì?np

Câu hỏi chính: chúng ta có thể sử dụng kết quả này, cùng với phương pháp delta (xem bên dưới), để cung cấp CI cho ECDF. Ý tôi là, ECDF là một chức năng của thống kê được sắp xếp, phải không? Nhưng đồng thời ECDF là một hàm không tham số, vậy đây có phải là ngõ cụt không?

Chúng tôi biết rằng và Var ( F n ( x ) ) = F ( x ) ( 1 - F ( x ) )E(F^n(x))=F(x)Var(F^n(x))=F(x)(1F(x))n

Tôi hy vọng tôi rõ ràng về những gì tôi nhận được ở đây, và đánh giá cao bất kỳ sự giúp đỡ nào.

CHỈNH SỬA :

Phương thức Delta: Nếu bạn có một chuỗi các biến ngẫu nhiên thỏa mãnXn

nhập mô tả hình ảnh ở đây,

và và là hữu hạn, thì những điều sau đây được thỏa mãn:θσ2

nhập mô tả hình ảnh ở đây,

đối với bất kỳ hàm g nào thỏa mãn thuộc tính mà tồn tại, có giá trị khác không và được giới hạn đa thức với biến ngẫu nhiên (trích dẫn wikipedia)g(θ)


1
n p X ( i ) i i i = n p X ( n p )np có nghĩa là được làm tròn đến số nguyên tiếp theo. sẽ là quan sát lớn thứ ( thống kê thứ ); đặt hai bit ký hiệu đó lại với nhau (let ) sẽ cho bạn . npX(i)iii=npX(np)
Glen_b -Reinstate Monica

Đồng ý! Và p chỉ bằng , sao cho np bằng i ? F^n(x)
Erosennin


Vì vậy, cách tính CI của bạn dựa trên thống kê Kolmogorov-Smirnov, nếu tôi hiểu chính xác mọi thứ? Tôi cũng có thể nhìn vào đó! Cảm ơn!
Erosennin

1
Nếu tôi nhớ chính xác, sử dụng số liệu thống kê của KS sẽ cung cấp cho bạn Dvoretzky TiếtKiefer HayWolfowitz.band. Câu lệnh bạn không nói rằng bạn chọn để tạo . Nếu bạn lấy một số bạn có một kết quả tiệm cận mà bạn đã trích dẫn; điều này sẽ liên quan đến giới hạn của một chuỗi các giá trị và bạn không cần là số nguyên cho bất kỳ số nào trong số chúng. n p = i p n n ppnp=ipnnp
Glen_b -Reinstate Monica

Câu trả lời:


4

Tôi thấy không có cách nào sử dụng phương thức delta, nhưng ...

Đọc về sự hội tụ của hàm phân phối theo kinh nghiệm, chúng ta đọc rằng định lý giới hạn trung tâm cho chúng ta:

n(F^n(x)F(x))N(0,F(x)(1F(x)))

Chúng tôi có thể sử dụng điều này để tạo các CI khác nhau xung quanh mỗi :F^n(x)

F^n(x)±1.96F^n(x)(1F^n(x))n ,

vì , là ước tính tốt nhất của chúng tôi về .F n ( x ) F ( x )E(F^n(x))=F(x)F^n(x)F(x)

Sử dụng mã R sau:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

Chúng tôi nhận được:

Blue = KWD band, Red = CLT band

Chúng tôi thấy rằng các dải màu đỏ (từ phương pháp CLT) cung cấp cho chúng tôi các dải tin cậy hẹp hơn.

EDIT : Như @Kjetil B Halvorsen đã chỉ ra - hai loại ban nhạc này là các loại khác nhau. Tôi đã có @Glen_b giải thích chính xác ý của anh ấy:

Các loại khác nhau của các nhóm tự tin. Với dải tin cậy theo chiều thuận, bạn mong đợi một số điểm bên ngoài băng ngay cả khi đó là phân phối mà dữ liệu được rút ra. Với các ban nhạc đồng thời, bạn sẽ không. Nếu bạn có dải tần 95%, trung bình 5% số điểm cho phân phối chính xác sẽ nằm ngoài dải. Với các dải đồng thời, có 5% khả năng điểm có độ lệch lớn nhất nằm ngoài.

Rất cám ơn cả hai!


Tại sao cách này không được ưa thích hơn khi sử dụng bất đẳng thức DKW - hoặc thống kê của KS? Tôi chưa bao giờ thấy ai xây dựng các dải tin cậy theo cách này trước đây ...
Erosennin

1
Nó chỉ cung cấp các dải tin cậy riêng lẻ, cho mỗi , không đồng thờix
kjetil b halvorsen

Theo "nó" tôi giả sử bạn có nghĩa là "cách CLT". Và ví dụ, DKW cũng không thực sự đưa ra bất cứ điều gì đồng thời, nó chỉ nêu khoảng cách "tối đa" và sử dụng điều này làm dải tin cậy cho mọi điểm x. Và tương tự cho KS. ϵ
Erosennin

Có, và bằng cách sử dụng tối đa theo cách này, họ có được một dải tin cậy hợp lệ đồng thời.
kjetil b halvorsen

2
Thảo luận thú vị ở đây. Tôi đã thêm các khoảng CDF theo chiều dọc vào Wikipedia và một số thảo luận xung quanh sự khác biệt giữa các phương pháp này. Tôi cũng cập nhật trang DKW để thảo luận về các khoảng thời gian cụ thể hơn. Hãy xem và cảm thấy tự do để cập nhật các trang hoặc PM cho tôi ở hai trang web en.wikipedia.org/wiki/... en.wikipedia.org/wiki/...
Bscan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.