Ai đó có thể vui lòng cung cấp một lời giải thích đơn giản (giáo dân) về mối quan hệ giữa các phân phối Pareto và Định lý giới hạn trung tâm (ví dụ: nó có áp dụng không? Tại sao / tại sao không?)? Tôi đang cố gắng để hiểu các tuyên bố sau:
Ai đó có thể vui lòng cung cấp một lời giải thích đơn giản (giáo dân) về mối quan hệ giữa các phân phối Pareto và Định lý giới hạn trung tâm (ví dụ: nó có áp dụng không? Tại sao / tại sao không?)? Tôi đang cố gắng để hiểu các tuyên bố sau:
Câu trả lời:
Xem mô tả của định lý giới hạn trung tâm cổ điển ở đây
Câu trích dẫn này khá kỳ lạ, bởi vì định lý giới hạn trung tâm (trong bất kỳ dạng nào được đề cập) không áp dụng cho chính nghĩa của mẫu, nhưng đối với một giá trị trung bình được tiêu chuẩn hóa (và nếu chúng ta cố gắng áp dụng nó cho một cái gì đó có nghĩa và phương sai không hữu hạn, chúng ta cần giải thích rất kỹ những gì chúng ta thực sự đang nói, vì tử số và mẫu số liên quan đến những thứ không có giới hạn hữu hạn).
Tuy nhiên (mặc dù không được diễn đạt chính xác khi nói về các định lý giới hạn trung tâm), nó có một điểm cơ bản - nghĩa là mẫu sẽ không hội tụ với dân số ( luật yếu của số lượng lớn không giữ được, vì tích phân xác định giá trị trung bình là không hữu hạn).
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
Và đây là cốt truyện:
. Một cách thực tế để suy nghĩ về điều đó là sau đây. Phân phối Pareto thường được đề xuất để mô hình phân phối thu nhập (hoặc sự giàu có). Kỳ vọng về thu nhập (hoặc sự giàu có) sẽ có sự đóng góp rất lớn từ rất ít tỷ phú. Lấy mẫu với kích thước mẫu thực tế sẽ có xác suất rất nhỏ bao gồm bất kỳ tỷ đô nào trong mẫu!
Tôi thích đã đưa ra câu trả lời nhưng nghĩ rằng có một chút kỹ thuật cho một "giải thích giáo dân" vì vậy tôi sẽ thử một cái gì đó trực quan hơn (bắt đầu bằng một phương trình ...).
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
Đây là một nhận thức điển hình, trung bình mẫu hội tụ với mật độ trung bình khá đúng (và trung bình theo cách được đưa ra bởi định lý giới hạn trung tâm). Hãy làm tương tự đối với phân phối pareto không có nghĩa (phân nhóm thay thế (N, 1,1); bằng pareto (N, 1.1,1);)