Làm thế nào để hiểu định nghĩa của hàm phân phối theo kinh nghiệm

Tôi đang đọc Tất cả các số liệu thống kê phi trắc nghiệm , bởi Larry Wasserman. Tại trang 12, ông định nghĩa hàm phân phối theo kinh nghiệm là:

Hàm phân phối theo kinh nghiệm là CDF đặt khối lượng tại mỗi điểm dữ liệu . Chính thức $\hat{F_n}$ $\frac{1}{n}$ $X_i$

\hat{F_{n}} (x) = \frac{1}{n} \sum_{i = 1}^{n} I (X_{i} \leq x)

$\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$

Ở đâu

I (X_{i} \leq x) = {\begin{matrix} 1 & i f X_{i} \leq x \\ 0 & i f X_{i} > x \end{matrix}

$I(X_i\le x)=\left\{\begin{matrix} 1& if\ X_i \le x\\ 0 & if \ X_i>x \end{matrix}\right.$

Câu hỏi của tôi là:

Tại sao được gọi là khối lượng? $\frac{1}{n}$
CDF đặt khối lượng cho mỗi điểm dữ liệu , theo hiểu biết của tôi, nó phải là . $\frac{1}{n}$ $X_i$ $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$

Tại sao lại là ? Tôi nghĩ rằng công thức này đặt khối lượng trên mỗi hàm chỉ thị chứ không phải . $\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$ $\frac{1}{n}$ $I(X_i \le x)$ $X_i$

Ý nghĩa của việc "đặt" một cái gì đó "tại mỗi điểm dữ liệu" là gì?

distributions nonparametric

— Bắc sâu
nguồn

Tại sao được gọi là khối lượng? $\frac{1}{n}$

Thuật ngữ "khối lượng" dùng để chỉ một lượng xác suất tại một điểm riêng biệt, khác với "mật độ" liên quan đến phân phối liên tục.

CDF đặt khối lượng cho mỗi điểm dữ liệu , theo hiểu biết của tôi, nó phải là . $\frac{1}{n}$ $X_i$ $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$

Đó không phải là một câu hỏi, đó là một tuyên bố - nhưng sự hiểu biết của bạn được đưa ra có một số cách cùng một lúc, vì vậy tôi có thể thảo luận về điều đó.

Đầu tiên biểu thức thực sự là một biểu thức cho trung bình mẫu (dưới dạng biến ngẫu nhiên) - nó có nghĩa đen là trung bình các giá trị. Tôi đoán rằng thay vào đó bạn có nghĩa là viết một biểu thức cho hàm xác suất theo kinh nghiệm ở đây - nhưng hãy nhớ rằng chúng ta có nghĩa là phải xử lý một hàm phân phối , không phải là hàm xác suất, vì vậy bạn cần tìm tỷ lệ của hàm thực nghiệm xác suất nằm ở hoặc bên trái của mỗi giá trị có thể có của - đó là cách hàm phân phối biểu thị xác suất 1 / n tại mỗi điểm: $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ $x$

Đây là hai biểu diễn khác nhau của cùng một đối tượng cơ bản. Bạn có thể thấy rằng pmf theo kinh nghiệm cho thấy khối lượng 1 / n ở mỗi giá trị được quan sát, trong khi ecdf cho thấy chiều cao tăng 1 / n ở mỗi giá trị được quan sát (và giá trị này tương ứng với 1 / n lần tổng các hàm chỉ báo bạn đã đề cập)

Ý nghĩa của việc "đặt" một cái gì đó "tại mỗi điểm dữ liệu" là gì?

Tôi không chắc chắn chính xác những gì gây ra khó khăn ở đây, các từ về cơ bản mang ý nghĩa thông thường của chúng; xem các hình ảnh ở trên cho thấy tỷ lệ tại mỗi giá trị quan sát ; nếu bạn coi epmf và ecdf tương ứng là pmf và cdf, thì đó là những xác suất. Có thể nó đang coi là một thực thể hoạt động (một thực thể có thể "đặt" những thứ ở đâu đó) làm bạn bối rối - sẽ dễ hiểu hơn nếu nó nói "có" thay vì "đặt"? Nếu điều đó không có ích, bạn sẽ phải làm rõ hơn những gì bạn cần giải thích ở đó. $1/n$ $x_i$ $\hat{F}$

— Glen_b -Reinstate Monica
nguồn