Tại sao ecdf sử dụng hàm bước chứ không phải nội suy tuyến tính?


12

Các chức năng CDF theo kinh nghiệm thường được ước tính bởi một chức năng bước. Có một lý do tại sao điều này được thực hiện theo cách như vậy mà không phải bằng cách sử dụng phép nội suy tuyến tính? Hàm bước có bất kỳ tính chất lý thuyết thú vị nào khiến chúng ta thích nó không?

Đây là một ví dụ về hai:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

nhập mô tả hình ảnh ở đây


Liên quan ...................................

8
"... được ước tính bởi một chức năng bước" tin vào một quan niệm sai lầm tinh tế: ECDF không chỉ được ước tính bởi một chức năng bước; đó một chức năng như vậy theo định nghĩa. Nó giống hệt với CDF của một biến ngẫu nhiên. Cụ thể, đưa ra bất kỳ chuỗi hữu hạn các số , xác định một không gian xác suất ( Ω , S , P ) với Ω = { 1 , 2 , ... , n } , rời rạc, vàx1,x2,,xn(Ω,S,P)Ω={1,2,,n}SP . Đặt là biến ngẫu nhiên gán cho . Các ECDF là CDF của . Đơn giản hóa khái niệm to lớn này là một lập luận thuyết phục cho định nghĩa. XxiiX
whuber

Câu trả lời:


21

Đó là theo định nghĩa.

Hàm phân phối theo kinh nghiệm của một tập hợp các quan sát được xác định bởi(Xn)

Fe(t)=#{XnXnt}n

Trong đó là số lượng thẻ được đặt. Đây là, về bản chất, là một chức năng bước. Nó hội tụ đến CDF thực tế gần như chắc chắn .#

Cũng lưu ý rằng đối với mọi phân phối có trong ít nhất hai (đặc biệt là các phân phối rời rạc không phân phối), biến thể ECDF của bạn không hội tụ với CDF thực tế. Ví dụ, hãy xem xét phân phối Bernoulli với CDFP(X=x)0x

FX(x)=pχx0+(1p)χx1
đây là một hàm bước trong khi ecdf2 sẽ hội tụ thành (một hàm tuyến tính từng phần nối và .χx0(p+(1p)min(x,1))(0,p)(1,1)

Cảm ơn Alex. Vì vậy, có một tên khác cho chức năng tôi đã viết? (vì tôi đoán nó cũng hội tụ vào CDF thực tế)
Tal Galili

5
@TalGalili Không. Hãy xem xét một phân phối Bernoulli. Ecdf2 của bạn sẽ không hội tụ trong trường hợp này. Bạn có thể gọi nó là một ecdf được làm mịn. Tôi nghi ngờ nó sẽ hội tụ vào CDF thực tế nếu CDF thực tế không có điểm nào có xác suất khác không ngoại trừ các điểm cực trị (nơi bạn không trơn tru)
AlexR

@AlexR bạn có thể chỉnh sửa câu trả lời của mình để thêm nhận xét này vì các bản phân phối rời rạc là lý do cho sự xác định như vậy - vì vậy nó trả lời câu hỏi "tại sao".
Tim

1
@Tim Xong.
AlexR

Cảm ơn. Có cách nào để xác định một hàm thực nghiệm liên tục sẽ hội tụ đến hàm bước nhưng sẽ hoàn toàn đơn điệu (nghĩa là: không có bất kỳ "bước nhảy" sắc nét nào)?
Tal Galili
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.