Tôi đã hỏi về lý do tại sao có sự khác biệt giữa trung bình tối đa 100 lần rút từ phân phối bình thường ngẫu nhiên và phân vị thứ 98 của phân phối bình thường. Câu trả lời tôi nhận được từ Rob Hyndman chủ yếu là chấp nhận được, nhưng quá dày đặc về mặt kỹ thuật để chấp nhận mà không sửa đổi. Tôi đã tự hỏi liệu có thể cung cấp một câu trả lời giải thích bằng ngôn ngữ đơn giản dễ hiểu bằng trực giác tại sao hai giá trị này không bằng nhau.
Cuối cùng, câu trả lời của tôi có thể không thỏa mãn thông tư; nhưng về mặt khái niệm, lý do tối đa (rnorm (100)) có xu hướng cao hơn qnorm (.98), bởi vì, trung bình, cao nhất trong số 100 điểm phân phối ngẫu nhiên thông thường sẽ đôi khi vượt quá giá trị mong đợi của nó. Tuy nhiên, sự biến dạng này là không đối xứng, vì khi điểm số thấp được rút ra, họ không có khả năng cuối cùng là cao nhất trong số 100 điểm. Mỗi lần rút tiền độc lập là một cơ hội mới để vượt quá giá trị mong đợi hoặc bị bỏ qua vì giá trị thu được không phải là tối đa của 100 giá trị được rút ra. Đối với một minh họa trực quan, so sánh biểu đồ của tối đa 20 giá trị với biểu đồ của tối đa 100 giá trị, sự khác biệt về độ nghiêng, đặc biệt là ở đuôi, là rõ ràng.
Tôi đã đến câu trả lời này một cách gián tiếp trong khi giải quyết một vấn đề / câu hỏi liên quan mà tôi đã hỏi trong các bình luận. Cụ thể, nếu tôi thấy rằng điểm kiểm tra của ai đó được xếp hạng trong phân vị thứ 95, tôi sẽ hy vọng rằng trung bình nếu tôi đặt họ trong một phòng có 99 người thực hiện bài kiểm tra khác thì thứ hạng của họ sẽ trung bình là 95. Điều này hóa ra là ít nhiều trường hợp (mã R) ...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Như một phần mở rộng của logic đó, tôi cũng đã hy vọng rằng nếu tôi lấy 100 người trong một phòng và chọn người có điểm cao thứ 95, sau đó lấy 99 người khác và họ sẽ làm bài kiểm tra tương tự, trung bình người được chọn sẽ được xếp hạng 95 trong nhóm mới. Nhưng đây không phải là trường hợp (mã R) ...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
Điều làm cho trường hợp đầu tiên khác với trường hợp thứ hai là trong trường hợp đầu tiên, điểm số của cá nhân đặt họ ở chính xác phần trăm thứ 95. Trong trường hợp thứ hai, điểm số của họ có thể cao hơn hoặc thấp hơn tỷ lệ phần trăm thứ 95 thực sự. Vì họ không thể xếp hạng cao hơn 100, nên các nhóm tạo ra điểm 95 xếp hạng thực sự ở phân vị thứ 99 hoặc cao hơn không thể bù (về thứ hạng trung bình) những trường hợp có điểm 95 xếp hạng thấp hơn nhiều so với 90 thực sự phân vị. Nếu bạn nhìn vào biểu đồ cho hai vectơ xếp hạng được cung cấp trong câu trả lời này, có thể dễ dàng thấy rằng có một hạn chế về phạm vi ở các đầu trên, đó là hậu quả của quá trình này mà tôi đã mô tả.