Việc tính toán một tỷ lệ phần trăm giống như đánh giá hàm mật độ tích lũy?


8

Tôi đang cố gắng thực hiện bước nhảy vọt từ ý tưởng về phân vị, giả sử, qua dòng số thực (trong đó phân vị thứ n chỉ đơn giản là vị trí trong đó n% điểm dữ liệu nằm dưới nó và 100% n% ở trên nó ), theo ý tưởng của khu vực theo hàm mật độ xác suất.

Nếu tôi muốn biết tỷ lệ phần trăm 50% từ một tập hợp số, tôi sẽ tìm thấy điểm trong đó một nửa số bên dưới, một nửa số ở trên. Đó là tỷ lệ phần trăm 50%, và tôi đã hoàn thành.

Nếu tôi muốn biết tỷ lệ phần trăm 50% từ một bản phân phối, giả sử, điểm Z, tôi sẽ đánh giá cdf từ 0 - 50 và tôi đã hoàn thành. Tôi nói điều này có đúng không?

Điều này cảm thấy đúng theo trực giác, nhưng tôi cần một số thảo luận để búa nó về nhà. Hoặc, tôi có thể hoàn toàn tắt ...

Câu trả lời:


5

Bạn gần gũi nhưng không chính xác. Hãy nhớ rằng khu vực dưới phân phối xác suất phải tổng bằng 1. Hàm mật độ tích lũy (CDF) là một hàm có các giá trị trong [0,1] do CDF được định nghĩa là trong đó f (x) là hàm mật độ xác suất. Sau đó, phân vị thứ 50 là tổng xác suất 50% số mẫu có nghĩa là điểm mà CDF đạt 0,5. Hay nói một cách tổng quát hơn, phân vị thứ p là điểm mà CDF đạt p / 100.

F(a)=af(x)dx

3
Có lẽ đáng để chỉ ra mức độ thân thiết của OP - thay vì "đánh giá CDF", họ nên đánh giá CDF ngược .
Cá bạc

1
rất gần nhưng đến nay ... :)
Matt O'Brien

Nói chung, nghịch đảo của CDF (theo nghĩa thông thường, nghĩa là nghịch đảo của hàm) có thể không tồn tại. Chúng ta nên xem xét cái gọi là nghịch đảo tổng quát (hay giả ngược) của CDF.
Daniel Pak-Keung Chan

1

Về cơ bản, tính toán một phần trăm (hoặc p-quantile) tương đương với việc tìm ra nghịch đảo của CDF.

Lưu ý rằng nghịch đảo, theo nghĩa thông thường, của CDF có thể không tồn tại và khái niệm nghịch đảo tổng quát nên được đưa ra. Để làm cho cuộc thảo luận chính xác, chúng tôi làm rõ tất cả các định nghĩa.

Định nghĩa: CDF là hàm thỏa mãn các điều kiện sau:F:[,][0,1]

  1. (Tăng) Với mọi , nếu , thì ,x < y F ( x ) F ( y )x,y[,]x<yF(x)F(y)

  2. (Liên tục phải) Với mọi , chúng ta có ,aRF(a)=limxa+F(x)

  3. F()=limxF(x)=0

  4. F()=limxF(x)=1 .

Chúng tôi có ít nhất hai phiên bản nghịch đảo tổng quát của , ký hiệu là và , được định nghĩa như sau.FInv1FInv2F

Inv1F:[0,1][,] , được xác định bởiInv1F(x)=inf{yF(y)x},

Inv2F:[0,1][,] , được xác định bởi .Inv2F(x)=inf{yF(y)>x}

Ở đây, chúng tôi áp dụng quy ước rằng .inf()=

Nếu tôi nhớ chính xác, được cho , -quantile được định nghĩa đơn giản là .p[0,1]pInv1F(p)

Tất nhiên, nếu tăng nghiêm ngặt và liên tục, cả hai phiên bản nghịch đảo tổng quát đều giống nhau và giảm xuống nghịch đảo thông thường của hàmFF1:[0,1][,].

Để biết thêm thông tin: https://people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.