Hãy để các dữ liệu được sắp xếp có . Để hiểu được những kinh nghiệm CDF G , hãy xem xét một trong các giá trị của x i --let của cuộc gọi nó g --và phải giả sử rằng một số số k của x i là ít hơn γ và t ≥ 1 của x i là tương đương với γ . Chọn một khoảng thời gian [ α , β ] trong đó, tất cả các giá trị dữ liệu có thể, chỉ γx1≤x2≤⋯≤xnGxiγkxiγt≥1xiγ[α,β]γxuất hiện. Sau đó, theo định nghĩa, trong khoảng thời gian này có giá trị không đổi k / n cho số ít hơn γ và nhảy đến giá trị không đổi ( k + t ) / n cho số lớn hơn γ .Gk/nγ(k+t)/nγ
Xem xét sự đóng góp cho từ khoảng [ α , β ] . Mặc dù h không phải là một chức năng - đó là một điểm đo kích thước t / n tại γ --Thư không thể thiếu được định nghĩa bằng phương pháp lồng ghép bằng các bộ phận để chuyển đổi nó thành một thiếu trung thực-to-tốt lành. Chúng ta hãy làm điều này trong khoảng [ α , β ] :∫b0xh(x)dx[α,β]ht/nγ[α,β]
∫βαxh(x)dx=(xG(x))|βα−∫βαG(x)dx=(βG(β)−αG(α))−∫βαG(x)dx.
Integrand mới, mặc dù nó là không liên tục tại , là khả tích. Giá trị của nó có thể dễ dàng tìm thấy bằng cách phá vỡ miền tích hợp vào các phần trước và sau bước nhảy trong G :γG
∫βαG(x)dx=∫γαG(α)dx+∫βγG(β)dx=(γ−α)G(α)+(β−γ)G(β).
Thay thế điều này vào những điều đã nói ở trên và thu hồi mang lạiG(α)=k/n,G(β)=(k+t)/n
∫βαxh(x)dx=(βG(β)−αG(α))−((γ−α)G(α)+(β−γ)G(β))=γtn.
Nói cách khác, tích phân này nhân vị trí (dọc theo trục ) của mỗi lần nhảy theo kích thước của bước nhảy đó. Kích thước của bước nhảy làX
tn=1n+⋯+1n
với một thuật ngữ cho mỗi giá trị dữ liệu bằng . Thêm các đóng góp từ tất cả các bước nhảy như vậy của G cho thấy rằngγG
∫b0xh(x)dx=∑i:0≤xi≤b(xi1n)=1n∑xi≤bxi.
Chúng ta có thể gọi đây là "trung bình một phần", khi thấy rằng nó bằng lần một phần tổng. (Xin lưu ý rằng đó không phải là một kỳ vọng. Nó có thể liên quan đến kỳ vọng về một phiên bản phân phối cơ bản đã bị cắt ngắn trong khoảng [ 0 , b ] : bạn phải thay thế hệ số 1 / n bằng 1 / m trong đó m là số lượng giá trị dữ liệu trong [ 0 , b ] .)1/n[0,b]1/n1/mm[0,b]
Cho , bạn muốn tìm b trong đó 1kbBởi vì tổng một phần là một tập hợp các giá trị hữu hạn, thường không có giải pháp: bạn sẽ cần giải quyết xấp xỉ tốt nhất, có thể tìm thấy bằng cách đặt dấu ngoặckgiữa hai phương tiện một phần, nếu có thể. Đó là, khi tìm thấyjnhư vậy1n∑xi≤bxi=k.kj
1n∑i=1j−1xi≤k<1n∑i=1jxi,
bạn sẽ thu hẹp vào khoảng [ x j - 1 , x j ) . Bạn không thể làm tốt hơn thế bằng cách sử dụng ECDF. (Bằng cách khớp một số phân phối liên tục vào ECDF, bạn có thể nội suy để tìm giá trị chính xác của b , nhưng độ chính xác của nó sẽ phụ thuộc vào độ chính xác của độ phù hợp.)b[xj−1,xj)b
R
thực hiện phép tính tổng một phần với cumsum
và tìm nơi nó vượt qua bất kỳ giá trị được chỉ định nào bằng cách sử dụng which
họ tìm kiếm, như trong:
set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])
Đầu ra trong ví dụ này về dữ liệu được rút ra từ phân phối mũ là
Giới hạn trên nằm trong khoảng từ 0,39 đến 0,57
0.1=∫b0xexp(−x)dx,0.531812
G