Thống kê thứ tự gần đúng cho các biến ngẫu nhiên bình thường


38

Có công thức nổi tiếng nào cho thống kê đơn hàng của các phân phối ngẫu nhiên nhất định không? Đặc biệt là thống kê thứ tự đầu tiên và cuối cùng của một biến ngẫu nhiên bình thường, nhưng một câu trả lời tổng quát hơn cũng sẽ được đánh giá cao.

Chỉnh sửa: Để làm rõ, tôi đang tìm kiếm các công thức gần đúng có thể được đánh giá rõ ràng ít nhiều, không phải là biểu thức tích phân chính xác.

Ví dụ, tôi đã thấy hai xấp xỉ sau cho thống kê đơn hàng đầu tiên (tức là tối thiểu) của một rv bình thường:

e1:nμn12n1σ

e1:nμ+Φ1(1n+1)σ

Là người đầu tiên trong số này, cho n=200 , cung cấp cho khoảng e1:200μ10σ mà có vẻ giống như một cực kỳ lỏng lẻo bị ràng buộc.

Thứ hai mang đến cho e1:200μ2.58σ trong khi một cách nhanh chóng Monte Carlo cho e1:200μ2.75σ , vì vậy nó không phải là một xấp xỉ xấu nhưng không lớn, hoặc, và quan trọng hơn tôi không có bất kỳ trực giác về nó đến từ đâu.

Có ai giúp đỡ không?


4
Nếu bạn sử dụng R, hãy xem chức năng ppoint .
Đức Hồng Y

1
@probabilityislogic đã đưa ra một số trực giác tốt cho các xấp xỉ bạn liệt kê. Nó sẽ hữu ích chút nào nếu tôi đưa ra một số từ quan điểm thay thế, hoặc bạn đã thỏa mãn sự tò mò của mình về vấn đề này?
Đức Hồng Y

Câu trả lời:


31

Tài liệu tham khảo cổ điển là Royston (1982) [1] có thuật toán vượt ra ngoài các công thức rõ ràng. Nó cũng trích dẫn một công thức nổi tiếng của Blom (1958): vớiα=0,375. Công thức này cho hệ số nhân -2,73 chon=200,r=1.E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]: Thuật toán AS 177: Số liệu thống kê đơn hàng bình thường dự kiến ​​(Chính xác và gần đúng) JP Royston. Tạp chí của Hiệp hội Thống kê Hoàng gia. Sê-ri C (Thống kê ứng dụng) Tập. 31, số 2 (1982), trang 161-165


21

Phân phối thống kê thứ tự thứ i của bất kỳ ngẫu nhiên liên tục nào biến với một tệp PDF được cung cấp bởi phân phối hợp chất "beta-F". Cách trực quan để suy nghĩ về phân phối này, là để xem xét các số liệu thống kê theo thứ tự thứ i trong một mẫu . Bây giờ để giá trị của thống kê thứ tự thứ i của biến ngẫu nhiên bằng chúng ta cần 3 điều kiện:NxXx
  1. x F X ( x ) F X ( x ) = P r ( X < x )i1 giá trị bên dưới , giá trị này có xác suất cho mỗi lần quan sát, trong đó là CDF của biến ngẫu nhiên X.xFX(x)FX(x)=Pr(X<x)
  2. x 1 - F X ( x )NiGiá trị trên , giá trị này có xác suấtx1FX(x)
  3. 1 giá trị bên trong một khoảng vô hạn chứa , giá trị này có xác suất trong đó là PDF của biến ngẫu nhiênf X ( x ) d x f X ( x ) d x = d F X ( x ) = P r ( x < X < x + d x ) XxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Có để đưa ra lựa chọn này, vì vậy chúng tôi có:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

EDIT trong bài viết gốc của tôi, tôi đã nỗ lực rất kém trong việc đi xa hơn từ thời điểm này, và các ý kiến ​​dưới đây phản ánh điều này. Tôi đã tìm cách khắc phục điều này dưới đây

Nếu chúng ta lấy giá trị trung bình của pdf này, chúng ta sẽ nhận được:

E(Xi)=xifi(xi)dxi

Và trong tích phân này, chúng tôi thực hiện thay đổi sau đây của biến (lấy gợi ý của @ henry) và tích phân trở thành:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Vì vậy, đây là giá trị mong đợi của CDF nghịch đảo, có thể được xấp xỉ bằng cách sử dụng phương thức delta để đưa ra:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

Để thực hiện xấp xỉ tốt hơn, chúng ta có thể mở rộng sang bậc 2 (phân biệt biểu thị số nguyên tố) và lưu ý rằng đạo hàm thứ hai của nghịch đảo là:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Đặt . Sau đó chúng tôi có:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Bây giờ, chuyên về trường hợp bình thường, chúng ta có

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Lưu ý rằng Và kỳ vọng sẽ trở thành:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

Và cuối cùng:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Mặc dù như @whuber đã lưu ý, điều này sẽ không chính xác trong phần đuôi. Trong thực tế tôi nghĩ rằng nó có thể tồi tệ hơn, bởi vì độ lệch của một phiên bản beta với các thông số khác nhau


1
"Ước tính khả năng tối đa của một biến ngẫu nhiên "? Không chắc đó là gì, nhưng tôi nghĩ bạn (gần như) đã tính toán chế độ .
Đức Hồng Y

1
Một cái gì đó bí ẩn xảy ra khoảng hai phần ba khi đột nhiên và xuất hiện mà không có cảnh báo hoặc định nghĩa. μσ
whuber

2
Tôi không có ý "chồng chất", nhưng tôi cũng khó mà thấy được số lượng trong ngoặc có thể xấp xỉ bằng một số âm.
Đức Hồng Y

1
@probabilityislogic, trong khi ở cấp độ tính toán, bạn có thể nói rằng trong trường hợp này, chúng tôi đang xem xét hàm bivariate và chỉ đơn giản là tối đa hóa một biến thay vì biến khác, tôi nghĩ có những lý do toán học, thống kê và sư phạm không gọi bạn là gì 'Đã thực hiện "ước tính khả năng tối đa". Chúng có quá nhiều thứ để liệt kê trong không gian này, nhưng một điều đơn giản mà tôi nghĩ đủ hấp dẫn là chúng ta sử dụng một từ vựng phức tạp, cụ thể trong thống kê vì một lý do. Thay đổi điều đó theo một ý thích cho một vấn đề duy nhất có thể dẫn đến sự hiểu lầm ... / ...
hồng y

2
@probabilityislogic (+1) cho câu trả lời sửa đổi. Một đề xuất, có lẽ tốt hơn có nghĩa là "ngụ ý". Phải nhìn chằm chằm vào một vài dòng trong vài giây để nhận ra bạn không đưa ra một số yêu cầu hội tụ.
Đức hồng y

13

Câu trả lời của Aniko dựa trên công thức nổi tiếng của Blom liên quan đến lựa chọn . Nó chỉ ra rằng công thức này tự nó chỉ là một xấp xỉ của một câu trả lời chính xác do G. Elfving (1947), Sự phân bố phạm vi không có triệu chứng trong các mẫu từ một dân số bình thường , Biometrika, Vol. 34, trang 111-119. Công thức của Elfving nhắm vào mức tối thiểu và tối đa của mẫu, trong đó lựa chọn chính xác của alpha là . Kết quả công thức của Blom khi chúng ta xấp xỉ bằng .α=3/8π/8π3

Bằng cách sử dụng công thức Elfving thay vì xấp xỉ của Blom, chúng ta có được hệ số nhân là -2,744165. Con số này gần với câu trả lời chính xác của Erik P. (-2.746) và với xấp xỉ Monte Carlo (-2,75) so với xấp xỉ của Blom (-2,73), trong khi dễ thực hiện hơn công thức chính xác.


Bạn có thể cung cấp thêm một chút chi tiết về cách được chuyển đến thông qua Elfving (1947) không? Nó không rõ ràng trong bài viết. α=π/8
Anthony

1
Anthony - Tôi đang dựa vào sách giáo khoa Thống kê toán học, của Samuel Wilks, quán rượu. Wiley (1962). Bài tập 8.21 trên p. 249 tuyên bố: "Nếu x_ (1), x_ (n) là số liệu thống kê đơn hàng nhỏ nhất và lớn nhất của một mẫu có kích thước n từ một cdf F (x) liên tục ... biến ngẫu nhiên 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]} có phân phối giới hạn là n -> vô cùng, với trung bình pi / 2 và phương sai 4- (pi ^ 2) / 4. " (Xin lỗi tôi không biết mã đánh dấu!) Đối với phân phối đối xứng, F (x_ (1)) = 1-F (x_ (n)). Do đó F (x_ (n)) là về pi / (4n) hoặc x_ (n) là về F ^ (- 1) (pi / (4n)). Công thức Blom sử dụng xấp xỉ 3 / (4n).
Hal M. Switkay

Điều này làm tôi nhớ đến dự luật " " khét tiếng được quy cho Cơ quan lập pháp bang Indiana. (Mặc dù bài viết trên wikipedia cho thấy phiên bản phổ biến của câu chuyện là không chính xác.)π=3
steveo'america

7

Tùy thuộc vào những gì bạn muốn làm, câu trả lời này có thể có hoặc không có ích - Tôi đã nhận được công thức chính xác sau đây từ gói Thống kê của Maple .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

Bản thân nó không hữu ích lắm (và nó có thể được lấy bằng tay khá dễ dàng, vì nó là tối thiểu biến ngẫu nhiên), nhưng nó cho phép xấp xỉ nhanh và rất chính xác cho các giá trị đã cho của - chính xác hơn nhiều so với Monte Carlo:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

lần lượt cho -2.746042447 và -2.746042447451154492412344.

(Tiết lộ đầy đủ - Tôi duy trì gói này.)


1
@ProbabilityIsLogic lấy được tích phân này cho tất cả các số liệu thống kê đơn hàng trong nửa đầu câu trả lời của anh ấy.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.