Sự khác biệt giữa phương sai hữu hạn và vô hạn là gì? Kiến thức thống kê của tôi là khá cơ bản; Wikipedia / Google không giúp được gì nhiều ở đây.
Sự khác biệt giữa phương sai hữu hạn và vô hạn là gì? Kiến thức thống kê của tôi là khá cơ bản; Wikipedia / Google không giúp được gì nhiều ở đây.
Câu trả lời:
Điều đó có nghĩa gì với một biến ngẫu nhiên có "phương sai vô hạn"? Điều đó có nghĩa gì với một biến ngẫu nhiên có kỳ vọng vô hạn? Giải thích trong cả hai trường hợp khá giống nhau, vì vậy chúng ta hãy bắt đầu với trường hợp kỳ vọng, và sau đó phương sai sau đó.
Đặt là biến ngẫu nhiên liên tục (RV) (kết luận của chúng tôi sẽ có giá trị chung hơn, đối với trường hợp riêng biệt, thay thế tích phân bằng tổng). Để đơn giản hóa giải trình bày, hãy giả sử .X ≥ 0
Kỳ vọng của nó được xác định bởi tích phân khi tích phân đó tồn tại, nghĩa là hữu hạn. Khác chúng tôi nói kỳ vọng không tồn tại. Đó là một tích phân không chính xác và theo định nghĩa là Để giới hạn đó là hữu hạn, đóng góp từ đuôi phải biến mất, nghĩa là chúng ta phải có Một điều kiện cần (nhưng không đủ) cho trường hợp đó là . Điều kiện hiển thị ở trên nói rằng, đóng góp cho kỳ vọng từ đuôi (phải) phải biến mất∫ ∞ 0 x f ( x )
Trong nhiều tình huống, điều đó dường như không thực tế. Hãy nói rằng một mô hình bảo hiểm (trọn đời), vì vậy mô hình một số (con người) trọn đời. Chúng tôi biết rằng, giả sử không xảy ra, nhưng trong thực tế, chúng tôi sử dụng các mô hình không có giới hạn trên. Lý do rất rõ ràng: Không có giới hạn trên cứng nào được biết đến, nếu một người (nói) 110 tuổi, không có lý do gì anh ta không thể sống thêm một năm nữa! Vì vậy, một mô hình với giới hạn trên cứng có vẻ nhân tạo. Tuy nhiên, chúng tôi không muốn phần đuôi trên có ảnh hưởng nhiều.X > 1000
Nếu có một kỳ vọng hữu hạn, thì chúng ta có thể thay đổi mô hình để có giới hạn trên cứng mà không ảnh hưởng quá mức đến mô hình. Trong tình huống với một giới hạn trên mờ có vẻ tốt. Nếu mô hình có kỳ vọng vô hạn, thì, bất kỳ giới hạn trên cứng nào mà chúng tôi giới thiệu cho mô hình sẽ có hậu quả nghiêm trọng! Đó là tầm quan trọng thực sự của sự kỳ vọng vô hạn.
Với kỳ vọng hữu hạn, chúng ta có thể mờ nhạt về giới hạn trên. Với kỳ vọng vô hạn, chúng ta không thể .
Bây giờ, nhiều điều tương tự có thể được nói về phương sai vô hạn, mutatis mutandi.
Để làm rõ hơn, hãy cho chúng tôi xem tại một ví dụ. Ví dụ, chúng tôi sử dụng phân phối Pareto, được triển khai trong gói R (trên CRAN) dưới dạng pareto1 --- phân phối Pareto tham số đơn còn được gọi là phân phối Pareto loại 1. Nó có hàm mật độ xác suất được đưa ra bởi cho một số tham số . Khi , kỳ vọng tồn tại và được đưa ra bởi . Khi , kỳ vọng không tồn tại, hoặc như chúng ta nói, nó là vô hạn, bởi vì tích phân xác định nó chuyển hướng đến vô cùng. Chúng ta có thể định nghĩa phân phối khoảnh khắc đầu tiênm>0,α
Khi kỳ vọng tồn tại ( ), chúng ta có thể chia cho nó để có phân phối khoảnh khắc đầu tiên tương đối, được đưa ra bởi Khi chỉ lớn hơn một chút, do đó, kỳ vọng "chỉ tồn tại", tích phân xác định kỳ vọng sẽ hội tụ chậm. Chúng ta hãy xem ví dụ với . Hãy để chúng tôi âm mưu sau đó với sự giúp đỡ của R:
### Function for opening new plot file:
open_png <- function(filename) png(filename=filename,
type="cairo-png")
library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm and used some times at cross validated
m <- 1.0
alpha <- 1.2
# Expectation:
E <- m * (alpha/(alpha-1))
# upper limit for plots:
upper <- qpareto1(0.99, alpha, m)
#
open_png("first_moment_dist1.png")
Er <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function, giving
# what we may call "expectation quantiles":
Er_inv <- function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))
plot(function(M) Er(M, m, alpha), from=1.0, to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0, to=upper, add=TRUE, col="red")
dev.off()
nơi tạo ra cốt truyện này:
Ví dụ, từ cốt truyện này, bạn có thể đọc rằng khoảng 50% đóng góp cho kỳ vọng đến từ các quan sát trên khoảng 40. Cho rằng kỳ vọng của phân phối này là 6, thật đáng kinh ngạc! (phân phối này không có phương sai hiện có. Vì vậy, chúng tôi cần ).
Hàm Er_inv được định nghĩa ở trên là phân phối khoảnh khắc tương đối đầu tiên, tương tự như hàm lượng tử. Chúng ta có:
> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example
eq <- Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq
> > > [1] 0.984375
> [1] 32
>
Điều này cho thấy 50% đóng góp cho kỳ vọng đến từ phần đuôi 1,5% trên của phân phối! Vì vậy, đặc biệt là trong các mẫu nhỏ có xác suất cao là đuôi cực không được biểu diễn, trung bình số học, trong khi vẫn là một công cụ ước lượng không thiên vị của kỳ vọng , phải có phân phối rất lệch. Chúng tôi sẽ điều tra điều này bằng cách mô phỏng: Đầu tiên chúng tôi sử dụng cỡ mẫu .
set.seed(1234)
n <- 5
N <- 10000000 # Number of simulation replicas
means <- replicate(N, mean(rpareto1(n, alpha, m) ))
> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136
Để có được một âm mưu có thể đọc được, chúng tôi chỉ hiển thị biểu đồ cho phần mẫu có giá trị dưới 100, đây là một phần rất lớn của mẫu.
open_png("mean_sim_hist1.png")
hist(means[means<=100], breaks=100, probability=TRUE)
dev.off()
Sự phân bố của các phương tiện số học là rất sai lệch,
> sum(means <= 6)/N
[1] 0.8596413
>
gần như 86% của các phương tiện thực nghiệm là ít hơn hoặc bằng so với trung bình lý thuyết, kỳ vọng. Đó là những gì chúng ta nên mong đợi, vì hầu hết sự đóng góp cho giá trị trung bình đến từ phần đuôi cực cao, không được thể hiện trong hầu hết các mẫu .
Chúng ta cần quay lại để đánh giá lại kết luận trước đó của chúng tôi. Mặc dù sự tồn tại của giá trị trung bình có thể mờ về giới hạn trên, chúng ta thấy rằng khi "giá trị trung bình hầu như không tồn tại", có nghĩa là tích phân chậm hội tụ, chúng ta thực sự không thể mờ về giới hạn trên . Các tích phân hội tụ chậm có kết quả là có thể tốt hơn khi sử dụng các phương thức không cho rằng kỳ vọng tồn tại . Khi tích phân rất chậm hội tụ, đó là trong thực tế như thể nó không hội tụ chút nào. Những lợi ích thiết thực tiếp theo từ một tích phân hội tụ là một con chimera trong trường hợp hội tụ chậm! Đó là một cách để hiểu kết luận của NN Taleb trong http://fooledbyrandomness.com/complexityAugust-06.pdf
Phương sai là thước đo độ phân tán của phân phối các giá trị của một biến ngẫu nhiên. Đây không phải là biện pháp duy nhất như vậy, ví dụ độ lệch tuyệt đối là một trong những biện pháp thay thế.
Phương sai vô hạn có nghĩa là các giá trị ngẫu nhiên không có xu hướng tập trung xung quanh giá trị trung bình quá chặt chẽ . Điều đó có thể có nghĩa là có xác suất đủ lớn rằng số ngẫu nhiên tiếp theo sẽ ở rất xa giá trị trung bình.
Các bản phân phối như Bình thường (Gaussian) có thể tạo ra các số ngẫu nhiên rất xa so với giá trị trung bình, nhưng xác suất của các sự kiện như vậy giảm rất nhanh với độ lớn của độ lệch.
Về mặt đó khi bạn nhìn vào âm mưu phân phối Cauchy hoặc phân phối Gaussian (bình thường), chúng trông không khác lắm về mặt trực quan. Tuy nhiên, nếu bạn cố gắng tính toán phương sai của phân phối Cauchy thì nó sẽ là vô hạn, trong khi Gaussian là hữu hạn. Vì vậy, phân phối bình thường chặt chẽ hơn xung quanh ý nghĩa của nó so với Cauchy.
Btw, nếu bạn nói chuyện với các nhà toán học, họ sẽ nhấn mạnh rằng phân phối Cauchy không có nghĩa rõ ràng, đó là vô hạn. Điều này nghe có vẻ vô lý với các nhà vật lý đã chỉ ra thực tế là đối xứng của Cauchy, do đó, nó chắc chắn có ý nghĩa. Trong trường hợp này, họ cho rằng vấn đề là do định nghĩa của bạn, không phải với bản phân phối của Cauchy.
Một cách khác để xem xét là bởi hàm lượng tử.
Sau đó, chúng ta có thể tính toán một khoảnh khắc hoặc kỳ vọng
cách khác là (thay thế ):
Nói rằng chúng tôi muốn tính toán khoảnh khắc đầu tiên sau đó . Trong hình bên dưới, phần này tương ứng với vùng giữa F và đường thẳng đứng tại (trong đó khu vực ở phía bên trái có thể được tính là âm khi ). Khoảnh khắc thứ hai sẽ tương ứng với âm lượng mà cùng một khu vực quét khi nó được xoay dọc theo đường thẳng tại (với chênh lệch ).
Các đường cong trong hình ảnh cho thấy mỗi lượng tử đóng góp bao nhiêu trong tính toán.
Đối với đường cong thông thường, chỉ có rất ít lượng tử có đóng góp lớn. Nhưng đối với đường cong Cauchy có nhiều lượng tử hơn với sự đóng góp lớn. Nếu đường cong đủ nhanh đến vô cùng khi F tiến đến 0 hoặc 1, thì diện tích có thể là vô hạn.
Vô cực này có thể không quá xa lạ vì khoảng cách chính nó (trung bình) hoặc khoảng cách bình phương (phương sai) có thể trở thành vô hạn. Nó chỉ là một câu hỏi bao nhiêu trọng lượng , bao nhiêu phần trăm của F, những cái đuôi vô hạn đó có.
Trong tổng hợp / tích hợp khoảng cách từ 0 (trung bình) hoặc bình phương khoảng cách từ trung bình (phương sai), một điểm ở rất xa sẽ có ảnh hưởng nhiều hơn đến khoảng cách trung bình (hoặc khoảng cách bình phương) so với rất nhiều điểm gần đó.
Do đó, khi chúng ta di chuyển về phía vô cực, mật độ có thể giảm, nhưng ảnh hưởng đến tổng của một số lượng (tăng), ví dụ khoảng cách hoặc khoảng cách bình phương không nhất thiết phải thay đổi.
Nếu với mỗi khối lượng ở một khoảng cách đó có một nửa hoặc nhiều hơn khối lượng ở khoảng cách thì bạn sẽ nhận được tổng của tổng khối lượng sẽ hội tụ vì sự đóng góp của khối lượng giảm, nhưng phương sai trở nên vô hạn vì sự đóng góp đó không giảm
Hầu hết các bản phân phối bạn gặp có lẽ có phương sai hữu hạn. Dưới đây là một ví dụ rời rạc có phương sai vô hạn nhưng có nghĩa là hữu hạn:
Đặt hàm khối lượng xác suất của nó là , với , , trong đó . Trước hết vì nó có nghĩa là hữu hạn. Ngoài ra, nó có phương sai vô hạn vì .
Lưu ý: là hàm zeta Riemann. Có nhiều ví dụ khác, chỉ là không dễ chịu để viết ra.