Tại sao giá trị trung bình của giá trị cao nhất từ ​​100 rút ra từ phân phối bình thường khác với phân vị thứ 98 của phân phối bình thường?


8

Tại sao giá trị trung bình của giá trị cao nhất từ ​​100 rút ra từ phân phối bình thường khác với tỷ lệ phần trăm 98% của phân phối bình thường? Dường như theo định nghĩa rằng họ nên giống nhau. Nhưng...

Mã trong R:

NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
    x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)

Tôi tưởng tượng rằng tôi đang hiểu nhầm điều gì đó về mức tối đa 100 rút ra từ phân phối bình thường. Như được thể hiện bằng một phân phối bất đối xứng của các giá trị tối đa.

Câu trả lời:


10

Tối đa không có phân phối bình thường. Cdf của nó là trong đó là cdf chuẩn thông thường. Nói chung, những khoảnh khắc của phân phối này là khó khăn để có được phân tích. Có một bài báo cổ về điều này của Tippett ( Biometrika , 1925) . Φ ( x )Φ(x)100Φ(x)


Có cách nào để diễn đạt bằng ngôn ngữ đơn giản sự khác biệt giữa một tỷ lệ phần trăm nhất định và tối đa của các giá trị N không? Từ góc độ giáo dục, thật khó để biết lý do tại sao một biểu dữ liệu xuất phát từ phần trăm (Y) nhất định sẽ không được dự kiến ​​(trung bình) giống như người ghi bàn hàng đầu từ một nhóm 100 / Y. Ví dụ: nếu tôi thấy rằng câu trả lời của bạn được xếp hạng trong phân vị thứ 90, tôi hy vọng rằng câu trả lời của bạn thường sẽ là câu trả lời hàng đầu trong số 10 câu trả lời được chọn ngẫu nhiên.
russellpierce

4
@drknexus Trực giác của bạn là chính xác. Tuy nhiên, các cực trị (và gần cực trị) của các phân phối lấy mẫu có phần đặc biệt: các giá trị của chúng bị ràng buộc bởi khối lượng dữ liệu ở một phía của chúng, trong khi - đối với các phân phối cha mẹ có đuôi vô hạn - không có ràng buộc nào ở chúng giá trị ở phía bên kia. Do đó, ví dụ, phân phối tối đa (từ phân phối không có giới hạn trên) bị lệch dương. Điều này làm tăng kỳ vọng của nó so với tỷ lệ phần trăm tương ứng.
whuber

2

Tôi đã hỏi về lý do tại sao có sự khác biệt giữa trung bình tối đa 100 lần rút từ phân phối bình thường ngẫu nhiên và phân vị thứ 98 của phân phối bình thường. Câu trả lời tôi nhận được từ Rob Hyndman chủ yếu là chấp nhận được, nhưng quá dày đặc về mặt kỹ thuật để chấp nhận mà không sửa đổi. Tôi đã tự hỏi liệu có thể cung cấp một câu trả lời giải thích bằng ngôn ngữ đơn giản dễ hiểu bằng trực giác tại sao hai giá trị này không bằng nhau.

Cuối cùng, câu trả lời của tôi có thể không thỏa mãn thông tư; nhưng về mặt khái niệm, lý do tối đa (rnorm (100)) có xu hướng cao hơn qnorm (.98), bởi vì, trung bình, cao nhất trong số 100 điểm phân phối ngẫu nhiên thông thường sẽ đôi khi vượt quá giá trị mong đợi của nó. Tuy nhiên, sự biến dạng này là không đối xứng, vì khi điểm số thấp được rút ra, họ không có khả năng cuối cùng là cao nhất trong số 100 điểm. Mỗi lần rút tiền độc lập là một cơ hội mới để vượt quá giá trị mong đợi hoặc bị bỏ qua vì giá trị thu được không phải là tối đa của 100 giá trị được rút ra. Đối với một minh họa trực quan, so sánh biểu đồ của tối đa 20 giá trị với biểu đồ của tối đa 100 giá trị, sự khác biệt về độ nghiêng, đặc biệt là ở đuôi, là rõ ràng.

Tôi đã đến câu trả lời này một cách gián tiếp trong khi giải quyết một vấn đề / câu hỏi liên quan mà tôi đã hỏi trong các bình luận. Cụ thể, nếu tôi thấy rằng điểm kiểm tra của ai đó được xếp hạng trong phân vị thứ 95, tôi sẽ hy vọng rằng trung bình nếu tôi đặt họ trong một phòng có 99 người thực hiện bài kiểm tra khác thì thứ hạng của họ sẽ trung bình là 95. Điều này hóa ra là ít nhiều trường hợp (mã R) ...

for (i in 1:NSIM)
{
    rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)

Như một phần mở rộng của logic đó, tôi cũng đã hy vọng rằng nếu tôi lấy 100 người trong một phòng và chọn người có điểm cao thứ 95, sau đó lấy 99 người khác và họ sẽ làm bài kiểm tra tương tự, trung bình người được chọn sẽ được xếp hạng 95 trong nhóm mới. Nhưng đây không phải là trường hợp (mã R) ...

for (i in 1:NSIM)
{
    testtakers <- rnorm(100)
    testtakers <- testtakers[order(testtakers)]
    testtakers <- testtakers[order(testtakers)]
    ranked95 <- testtakers[95]
    rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)

Điều làm cho trường hợp đầu tiên khác với trường hợp thứ hai là trong trường hợp đầu tiên, điểm số của cá nhân đặt họ ở chính xác phần trăm thứ 95. Trong trường hợp thứ hai, điểm số của họ có thể cao hơn hoặc thấp hơn tỷ lệ phần trăm thứ 95 thực sự. Vì họ không thể xếp hạng cao hơn 100, nên các nhóm tạo ra điểm 95 xếp hạng thực sự ở phân vị thứ 99 hoặc cao hơn không thể bù (về thứ hạng trung bình) những trường hợp có điểm 95 xếp hạng thấp hơn nhiều so với 90 thực sự phân vị. Nếu bạn nhìn vào biểu đồ cho hai vectơ xếp hạng được cung cấp trong câu trả lời này, có thể dễ dàng thấy rằng có một hạn chế về phạm vi ở các đầu trên, đó là hậu quả của quá trình này mà tôi đã mô tả.


2

Có hai vấn đề: một là sự sai lệch trong phân phối giá trị hàng đầu mà bạn đã xác định; khác là bạn không nên nhìn vào phân vị thứ 98.

qq100q100=12q=121/1000.993090.98

Như một minh họa trong R

require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))

cái nào cho

> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925

1

NX1,...,XNY1

P(Y1<x)=P(max(X1,...,XN)<x)=P(X1<x,...,XN<x)=P(X1<x)P(XN<x)=P(X<x)100,
FY1(x)=FX(x)100,
Ff

Rob sử dụng ký hiệu chuẩn rằng được định nghĩa là cho một tiêu chuẩn thông thường --- tức là, là CDF tiêu chuẩn thông thường.Φ(x)P(X<x) Φ(x)

Hàm mật độ xác suất (PDF) của thống kê đơn hàng đầu tiên chỉ là đạo hàm của CDF đối với : CDF tại tăng lên 99 (nghĩa là ) nhân với PDF gấp lần 100 (nghĩa là ).f Y 1 ( x ) = 100 F X ( x ) 99 f X ( x ) x N - 1 x NX

fY1(x)=100FX(x)99fX(x)
xN1xN

Dường như có điều gì đó không ổn với phương trình cuối cùng của bạn (tôi đã sửa lỗi sắp chữ nhưng đã dịch chính xác như bạn đã có trước đó). là gì? Ngoài ra, pdf của không tương đương với . Trong thực tế, nếu có phân phối bình thường (hoặc bất kỳ phân phối liên tục nào) thì bất kỳ , do đó không thể là pdf. X P ( X = x ) X P ( X = x ) = 0 xX1XP(X=x)XP(X=x)=0x
Macro

@Macro, là trận hòa đầu tiên từ trận hòa độc lập; là thống kê đơn hàng đầu tiên (thay vào đó bạn có thể thích viết ). Tôi đã làm cho ký hiệu chính xác hơn để đáp lại những bình luận khác của bạn. N Y 1 X ( 1 )X1NY1X(1)
Charlie
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.