Định lý giới hạn trung tâm và phân phối Pareto


10

Câu trả lời:


15

α

α>2

Xem mô tả của định lý giới hạn trung tâm cổ điển ở đây

Câu trích dẫn này khá kỳ lạ, bởi vì định lý giới hạn trung tâm (trong bất kỳ dạng nào được đề cập) không áp dụng cho chính nghĩa của mẫu, nhưng đối với một giá trị trung bình được tiêu chuẩn hóa (và nếu chúng ta cố gắng áp dụng nó cho một cái gì đó có nghĩa và phương sai không hữu hạn, chúng ta cần giải thích rất kỹ những gì chúng ta thực sự đang nói, vì tử số và mẫu số liên quan đến những thứ không có giới hạn hữu hạn).

Tuy nhiên (mặc dù không được diễn đạt chính xác khi nói về các định lý giới hạn trung tâm), nó có một điểm cơ bản - nghĩa là mẫu sẽ không hội tụ với dân số ( luật yếu của số lượng lớn không giữ được, vì tích phân xác định giá trị trung bình là không hữu hạn).


n>1010100

E(|X|3)

α>3n


2
α>2α>3

@kjetil khá vậy; trong thực tế, bạn cần nhiều hơn chỉ là khoảnh khắc thứ hai vì sự hội tụ có thể chậm một cách vô ích.
Glen_b -Reinstate Monica

1
Vâng, tôi sẽ thêm một câu trả lời để cho thấy điều đó!
kjetil b halvorsen

2
Một số phân phối không tuân theo định lý giới hạn trung tâm có thể được tiêu chuẩn hóa để hội tụ thành một định luật ổn định.
Michael R. Chernick

Cuộc thảo luận tuyệt vời ở đây. Wish stackexchange có cách theo dõi câu trả lời / bình luận của mọi người;)
Chan-Ho Suh

9

α>2

α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

Và đây là cốt truyện:

mô phỏng phương tiện pareto, biểu đồ

n=10000σ2=1. Một cách thực tế để suy nghĩ về điều đó là sau đây. Phân phối Pareto thường được đề xuất để mô hình phân phối thu nhập (hoặc sự giàu có). Kỳ vọng về thu nhập (hoặc sự giàu có) sẽ có sự đóng góp rất lớn từ rất ít tỷ phú. Lấy mẫu với kích thước mẫu thực tế sẽ có xác suất rất nhỏ bao gồm bất kỳ tỷ đô nào trong mẫu!


3

Tôi thích đã đưa ra câu trả lời nhưng nghĩ rằng có một chút kỹ thuật cho một "giải thích giáo dân" vì vậy tôi sẽ thử một cái gì đó trực quan hơn (bắt đầu bằng một phương trình ...).

p

μ=xp(x)dx
xxxxp(x)xp(x)p(x)μp

x¯=1nixiμpnnx¯np

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

nhập mô tả hình ảnh ở đây

Đây là một nhận thức điển hình, trung bình mẫu hội tụ với mật độ trung bình khá đúng (và trung bình theo cách được đưa ra bởi định lý giới hạn trung tâm). Hãy làm tương tự đối với phân phối pareto không có nghĩa (phân nhóm thay thế (N, 1,1); bằng pareto (N, 1.1,1);)

nhập mô tả hình ảnh ở đây

p(x)xxx

n(xμ)2p(x)dx

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.