Sự khác biệt giữa phương sai hữu hạn và vô hạn

33

Sự khác biệt giữa phương sai hữu hạn và vô hạn là gì? Kiến thức thống kê của tôi là khá cơ bản; Wikipedia / Google không giúp được gì nhiều ở đây.

variance intuition partial-moments

— AfterWorkGuinness
nguồn

8

Phân phối với phương sai vô hạn là đuôi nặng ; có rất nhiều ngoại lệ, và có thể có các thuộc tính khác với những gì người ta thường thấy. Ví dụ, giá trị trung bình mẫu của các mẫu được rút ra từ phân phối Cauchy có cùng phân phối (Cauchy) với các mẫu riêng lẻ. Điều này hoàn toàn khác với niềm tin thông thường rằng giá trị trung bình của mẫu là "công cụ ước tính" tốt hơn bất kỳ mẫu riêng lẻ nào.

— Dilip Sarwate

4

Không, đuôi nặng không giống như có phương sai vô hạn, hoặc ít nhất, không theo quan điểm của tôi. Tuy nhiên, tôi không phải là một nhà thống kê và vì vậy bạn nên chờ đợi một câu trả lời có thẩm quyền hơn từ những người dùng được xếp hạng cao trong diễn đàn này.

— Dilip Sarwate

4

Phương sai vô hạn xảy ra khi tích phân (tổng) xác định phương sai dân số tăng vượt quá mọi giới hạn hữu hạn khi giới hạn được thực hiện. Một số thảo luận về các ví dụ ở đây

— Glen_b -Reinstate Monica

2

Tôi nghĩ quan trọng nhất, hầu hết các định lý giới hạn trung tâm không giữ được dân số như vậy và do đó một số kết quả chung sẽ sụp đổ.

— Henry.L

1

Điểm quan trọng: nếu phương sai của dân số là vô hạn, nhưng phương sai của mẫu là hữu hạn, thì mọi ước tính về phương sai của dân số hoặc độ lệch chuẩn sử dụng một thống kê mẫu như hoặc , sau đó sẽ bị sai lệch khá nhiều. Do có rất nhiều thống kê kiểm tra dựa trên thước đo hiệu ứng được chuẩn hóa theo sai số chuẩn ước tính của hiệu ứng và do có rất nhiều TCTD dựa trên tỷ lệ theo sai số chuẩn ước tính, điều này có nghĩa là suy luận thống kê về các biến có phương sai vô hạn sẽ có khả năng khá thiên vị .

s^{2}

$s^{2}$

s

$s$

\frac{s}{\sqrt{n}}

$\frac{s}{\sqrt{n}}$

— Alexis

48

$\DeclareMathOperator{\E}{E} \DeclareMathOperator{\var}{var}$ Điều đó có nghĩa gì với một biến ngẫu nhiên có "phương sai vô hạn"? Điều đó có nghĩa gì với một biến ngẫu nhiên có kỳ vọng vô hạn? Giải thích trong cả hai trường hợp khá giống nhau, vì vậy chúng ta hãy bắt đầu với trường hợp kỳ vọng, và sau đó phương sai sau đó.

Đặt là biến ngẫu nhiên liên tục (RV) (kết luận của chúng tôi sẽ có giá trị chung hơn, đối với trường hợp riêng biệt, thay thế tích phân bằng tổng). Để đơn giản hóa giải trình bày, hãy giả sử . $X$ $X \ge 0$

Kỳ vọng của nó được xác định bởi tích phân khi tích phân đó tồn tại, nghĩa là hữu hạn. Khác chúng tôi nói kỳ vọng không tồn tại. Đó là một tích phân không chính xác và theo định nghĩa là Để giới hạn đó là hữu hạn, đóng góp từ đuôi phải biến mất, nghĩa là chúng ta phải có Một điều kiện cần (nhưng không đủ) cho trường hợp đó là . Điều kiện hiển thị ở trên nói rằng, đóng góp cho kỳ vọng từ đuôi (phải) phải biến mất

E X = \int_{0}^{\infty} x f (x) d x

$\E X = \int_0^\infty x f(x) \, d x$

\int_{0}^{\infty} x f (x) d x = lim_{a \to \infty} \int_{0}^{a} x f (x) d x

$\int_0^\infty x f(x) \, d x = \lim_{a \rightarrow \infty} \int_0^a x f(x) \, d x$

lim_{a \to \infty} \int_{a}^{\infty} x f (x) d x = 0

$\lim_{a \rightarrow \infty} \int_a^\infty x f(x) \, d x =0$

lim_{x \to \infty} x f (x) = 0

$\lim_{x\rightarrow \infty} x f(x) =0$ . Nếu không phải như vậy, kỳ vọng bị chi phối bởi sự đóng góp từ các giá trị nhận được lớn tùy ý . Trong thực tế, điều đó có nghĩa là các phương tiện thực nghiệm sẽ rất không ổn định, bởi vì chúng sẽ bị chi phối bởi các giá trị nhận ra rất lớn không thường xuyên . Và lưu ý rằng sự không ổn định này của phương tiện mẫu sẽ không biến mất với các mẫu lớn --- nó là một phần tích hợp của mô hình!

Trong nhiều tình huống, điều đó dường như không thực tế. Hãy nói rằng một mô hình bảo hiểm (trọn đời), vì vậy mô hình một số (con người) trọn đời. Chúng tôi biết rằng, giả sử không xảy ra, nhưng trong thực tế, chúng tôi sử dụng các mô hình không có giới hạn trên. Lý do rất rõ ràng: Không có giới hạn trên cứng nào được biết đến, nếu một người (nói) 110 tuổi, không có lý do gì anh ta không thể sống thêm một năm nữa! Vì vậy, một mô hình với giới hạn trên cứng có vẻ nhân tạo. Tuy nhiên, chúng tôi không muốn phần đuôi trên có ảnh hưởng nhiều. $X$ $X > 1000$

Nếu có một kỳ vọng hữu hạn, thì chúng ta có thể thay đổi mô hình để có giới hạn trên cứng mà không ảnh hưởng quá mức đến mô hình. Trong tình huống với một giới hạn trên mờ có vẻ tốt. Nếu mô hình có kỳ vọng vô hạn, thì, bất kỳ giới hạn trên cứng nào mà chúng tôi giới thiệu cho mô hình sẽ có hậu quả nghiêm trọng! Đó là tầm quan trọng thực sự của sự kỳ vọng vô hạn. $X$

Với kỳ vọng hữu hạn, chúng ta có thể mờ nhạt về giới hạn trên. Với kỳ vọng vô hạn, chúng ta không thể .

Bây giờ, nhiều điều tương tự có thể được nói về phương sai vô hạn, mutatis mutandi.

Để làm rõ hơn, hãy cho chúng tôi xem tại một ví dụ. Ví dụ, chúng tôi sử dụng phân phối Pareto, được triển khai trong gói R (trên CRAN) dưới dạng pareto1 --- phân phối Pareto tham số đơn còn được gọi là phân phối Pareto loại 1. Nó có hàm mật độ xác suất được đưa ra bởi cho một số tham số . Khi , kỳ vọng tồn tại và được đưa ra bởi . Khi , kỳ vọng không tồn tại, hoặc như chúng ta nói, nó là vô hạn, bởi vì tích phân xác định nó chuyển hướng đến vô cùng. Chúng ta có thể định nghĩa phân phối khoảnh khắc đầu tiên

f (x) = {\begin{cases} \frac{α m^{α}}{x^{α + 1}} & , x \geq m \\ 0 & , x < m \end{cases}

$f(x) = \begin{cases} \frac{\alpha m^\alpha}{x^{\alpha+1}} &, x\ge m \\ 0 &, x<m \end{cases}$

m > 0, α > 0

$m>0, \alpha>0$

α > 1

$\alpha > 1$

\frac{α}{α - 1} \cdot m

$\frac{\alpha}{\alpha-1}\cdot m$

α \leq 1

$\alpha \le 1$ (xem bài đăng Khi nào chúng ta sẽ sử dụng tantiles và medial, thay vì quantiles và median? cho một số thông tin và tài liệu tham khảo) như (điều này tồn tại mà không cần quan tâm đến việc liệu kỳ vọng có tồn tại không). (Chỉnh sửa sau: Tôi đã phát minh ra tên "phân phối khoảnh khắc đầu tiên, sau này tôi biết điều này có liên quan đến những gì là" chính thức "tên một phần khoảnh khắc ).

E (M) = \int_{m}^{M} x f (x) d x = \frac{α}{α - 1} (m - \frac{m^{α}}{M^{α - 1}})

$E(M) = \int_m^M x f(x) \, d x = \frac{\alpha}{\alpha-1} \left( m - \frac{m^\alpha}{M^{\alpha-1}} \right)$

Khi kỳ vọng tồn tại ( ), chúng ta có thể chia cho nó để có phân phối khoảnh khắc đầu tiên tương đối, được đưa ra bởi Khi chỉ lớn hơn một chút, do đó, kỳ vọng "chỉ tồn tại", tích phân xác định kỳ vọng sẽ hội tụ chậm. Chúng ta hãy xem ví dụ với . Hãy để chúng tôi âm mưu sau đó với sự giúp đỡ của R: $\alpha> 1$

E r (M) = = E (m) / E (\infty) = = 1 - {(\frac{m}{M})}^{α - 1}

$Er(M) = E(m)/E(\infty) = 1-\left(\frac{m}{M}\right)^{\alpha-1}$

α

$\alpha$

m = 1, α = 1.2

$m=1, \alpha=1.2$

E r (M)

$Er(M)$

### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

nơi tạo ra cốt truyện này:

Ví dụ, từ cốt truyện này, bạn có thể đọc rằng khoảng 50% đóng góp cho kỳ vọng đến từ các quan sát trên khoảng 40. Cho rằng kỳ vọng của phân phối này là 6, thật đáng kinh ngạc! (phân phối này không có phương sai hiện có. Vì vậy, chúng tôi cần ). $\mu$ $\alpha > 2$

Hàm Er_inv được định nghĩa ở trên là phân phối khoảnh khắc tương đối đầu tiên, tương tự như hàm lượng tử. Chúng ta có:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
>

Điều này cho thấy 50% đóng góp cho kỳ vọng đến từ phần đuôi 1,5% trên của phân phối! Vì vậy, đặc biệt là trong các mẫu nhỏ có xác suất cao là đuôi cực không được biểu diễn, trung bình số học, trong khi vẫn là một công cụ ước lượng không thiên vị của kỳ vọng , phải có phân phối rất lệch. Chúng tôi sẽ điều tra điều này bằng cách mô phỏng: Đầu tiên chúng tôi sử dụng cỡ mẫu . $\mu$ $n=5$

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))


> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Để có được một âm mưu có thể đọc được, chúng tôi chỉ hiển thị biểu đồ cho phần mẫu có giá trị dưới 100, đây là một phần rất lớn của mẫu.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

Sự phân bố của các phương tiện số học là rất sai lệch,

> sum(means <= 6)/N
[1] 0.8596413
>

gần như 86% của các phương tiện thực nghiệm là ít hơn hoặc bằng so với trung bình lý thuyết, kỳ vọng. Đó là những gì chúng ta nên mong đợi, vì hầu hết sự đóng góp cho giá trị trung bình đến từ phần đuôi cực cao, không được thể hiện trong hầu hết các mẫu .

Chúng ta cần quay lại để đánh giá lại kết luận trước đó của chúng tôi. Mặc dù sự tồn tại của giá trị trung bình có thể mờ về giới hạn trên, chúng ta thấy rằng khi "giá trị trung bình hầu như không tồn tại", có nghĩa là tích phân chậm hội tụ, chúng ta thực sự không thể mờ về giới hạn trên . Các tích phân hội tụ chậm có kết quả là có thể tốt hơn khi sử dụng các phương thức không cho rằng kỳ vọng tồn tại . Khi tích phân rất chậm hội tụ, đó là trong thực tế như thể nó không hội tụ chút nào. Những lợi ích thiết thực tiếp theo từ một tích phân hội tụ là một con chimera trong trường hợp hội tụ chậm! Đó là một cách để hiểu kết luận của NN Taleb trong http://fooledbyrandomness.com/complexityAugust-06.pdf

— kjetil b halvorsen
nguồn

2

Câu trả lời tuyệt vời.

— Karl

2

Phương sai là thước đo độ phân tán của phân phối các giá trị của một biến ngẫu nhiên. Đây không phải là biện pháp duy nhất như vậy, ví dụ độ lệch tuyệt đối là một trong những biện pháp thay thế.

Phương sai vô hạn có nghĩa là các giá trị ngẫu nhiên không có xu hướng tập trung xung quanh giá trị trung bình quá chặt chẽ . Điều đó có thể có nghĩa là có xác suất đủ lớn rằng số ngẫu nhiên tiếp theo sẽ ở rất xa giá trị trung bình.

Các bản phân phối như Bình thường (Gaussian) có thể tạo ra các số ngẫu nhiên rất xa so với giá trị trung bình, nhưng xác suất của các sự kiện như vậy giảm rất nhanh với độ lớn của độ lệch.

Về mặt đó khi bạn nhìn vào âm mưu phân phối Cauchy hoặc phân phối Gaussian (bình thường), chúng trông không khác lắm về mặt trực quan. Tuy nhiên, nếu bạn cố gắng tính toán phương sai của phân phối Cauchy thì nó sẽ là vô hạn, trong khi Gaussian là hữu hạn. Vì vậy, phân phối bình thường chặt chẽ hơn xung quanh ý nghĩa của nó so với Cauchy.

Btw, nếu bạn nói chuyện với các nhà toán học, họ sẽ nhấn mạnh rằng phân phối Cauchy không có nghĩa rõ ràng, đó là vô hạn. Điều này nghe có vẻ vô lý với các nhà vật lý đã chỉ ra thực tế là đối xứng của Cauchy, do đó, nó chắc chắn có ý nghĩa. Trong trường hợp này, họ cho rằng vấn đề là do định nghĩa của bạn, không phải với bản phân phối của Cauchy.

— Aksakal
nguồn

2

Bạn có chắc chắn về các nhà toán học và vật lý học? Ấn tượng của tôi là vật lý có thể rất cứng nhắc về những điều như vậy! Xem câu trả lời của tôi, sự hội tụ chậm làm cho một giá trị ít giá trị! Ngoài ra, không có nhà toán học nào nói rằng Cauchy có ý nghĩa vô hạn, giới hạn thích hợp bảo vệ tích phân đơn giản là không tồn tại, vì nó phân kỳ ở cả hai đuôi. Nói về kỳ vọng là hoặc chỉ có ý nghĩa khi phân kỳ chỉ ở một đuôi.

\infty

$\infty$

- \infty

$-\infty$

— kjetil b halvorsen

1

@kjetilbhalvorsen, "không nhà toán học nào nói Cauchy có ý nghĩa vô hạn" - điều đó có nghĩa là không được xác định chính xác là những gì tôi đã được giáo sư thống kê của tôi nói, trong khi cố vấn Physcis của tôi đã ngạc nhiên thậm chí còn có một câu hỏi về ý nghĩa, "Tất nhiên là bằng không, và nếu bạn không đồng ý thì có gì đó không đúng với định nghĩa của bạn"

— Aksakal

Bạn có hỏi anh ấy về định nghĩa của anh ấy về nghĩa không?

— kjetil b halvorsen

@kjetilbhalvorsen, Riemann không thể thiếu nếu bạn đang nói về toán prof. Lập luận của anh ta là trong Riemann sum, bạn không xác định một thứ tự nhất định hoặc phân chia tổng, vì vậy tổng của bạn sẽ là vô hạn. Quan điểm của các nhà vật lý là một sự đối xứng, rõ ràng, nó "phải bằng không"

— Aksakal

1

Sau đó, có lẽ bạn có thể nói với anh ta anh ta xác định trung vị, không phải là trung bình.

— kjetil b halvorsen

2

Một cách khác để xem xét là bởi hàm lượng tử.

Q (F (x)) = = x

$Q(F(x)) = x$

Sau đó, chúng ta có thể tính toán một khoảnh khắc hoặc kỳ vọng

E (T (x)) = = \int_{- \infty}^{\infty} T (x) f (x) d x

$E(T(x)) = \int_{-\infty}^\infty T(x) f(x) dx\\$

cách khác là (thay thế ): $f(x)dx = dF$

E (T (x)) = = \int_{0}^{1} T (Q (F)) d F

$E(T(x)) = \int_{0}^1 T(Q(F)) dF \\$

Nói rằng chúng tôi muốn tính toán khoảnh khắc đầu tiên sau đó . Trong hình bên dưới, phần này tương ứng với vùng giữa F và đường thẳng đứng tại (trong đó khu vực ở phía bên trái có thể được tính là âm khi ). Khoảnh khắc thứ hai sẽ tương ứng với âm lượng mà cùng một khu vực quét khi nó được xoay dọc theo đường thẳng tại (với chênh lệch ). $T(x) = x$ $x=0$ $T(x)<0$ $x=0$ $\pi$

Các đường cong trong hình ảnh cho thấy mỗi lượng tử đóng góp bao nhiêu trong tính toán.

Đối với đường cong thông thường, chỉ có rất ít lượng tử có đóng góp lớn. Nhưng đối với đường cong Cauchy có nhiều lượng tử hơn với sự đóng góp lớn. Nếu đường cong đủ nhanh đến vô cùng khi F tiến đến 0 hoặc 1, thì diện tích có thể là vô hạn. $T(Q(F))$

Vô cực này có thể không quá xa lạ vì khoảng cách chính nó (trung bình) hoặc khoảng cách bình phương (phương sai) có thể trở thành vô hạn. Nó chỉ là một câu hỏi bao nhiêu trọng lượng , bao nhiêu phần trăm của F, những cái đuôi vô hạn đó có.

Trong tổng hợp / tích hợp khoảng cách từ 0 (trung bình) hoặc bình phương khoảng cách từ trung bình (phương sai), một điểm ở rất xa sẽ có ảnh hưởng nhiều hơn đến khoảng cách trung bình (hoặc khoảng cách bình phương) so với rất nhiều điểm gần đó.

Do đó, khi chúng ta di chuyển về phía vô cực, mật độ có thể giảm, nhưng ảnh hưởng đến tổng của một số lượng (tăng), ví dụ khoảng cách hoặc khoảng cách bình phương không nhất thiết phải thay đổi.

Nếu với mỗi khối lượng ở một khoảng cách đó có một nửa hoặc nhiều hơn khối lượng ở khoảng cách thì bạn sẽ nhận được tổng của tổng khối lượng sẽ hội tụ vì sự đóng góp của khối lượng giảm, nhưng phương sai trở nên vô hạn vì sự đóng góp đó không giảm $x$ $\sqrt{2}x$ $\sum \frac{1}{2^n}$ $\sum ((\sqrt{2}x)^n)^2 \frac{1}{2^n} \to \infty$

— Sextus Empiricus
nguồn

1

Hầu hết các bản phân phối bạn gặp có lẽ có phương sai hữu hạn. Dưới đây là một ví dụ rời rạc có phương sai vô hạn nhưng có nghĩa là hữu hạn: $X$

Đặt hàm khối lượng xác suất của nó là , với , , trong đó . Trước hết vì nó có nghĩa là hữu hạn. Ngoài ra, nó có phương sai vô hạn vì . $p(k) = c/|k|^3$ $k \in \mathbb{Z} \setminus\{0\}$ $p(0) = 0$ $c = (2\zeta(3))^{-1} := (2\sum_{k=1}^\infty 1/k^3)^{-1} < \infty$ $\mathbb{E} \mid X\mid < \infty$ $2 \sum_{k=1}^\infty k^2 / |k|^3 = 2\sum_{k=1}^\infty k^{-1} = \infty$

Lưu ý: là hàm zeta Riemann. Có nhiều ví dụ khác, chỉ là không dễ chịu để viết ra. $\zeta(x) :=\sum_{k=1}^\infty k^{-x}$

— John Giang
nguồn

4

Chỉ vì phân phối là đối xứng (tức là một hàm chẵn), không nhất thiết phải có nghĩa là ; giá trị trung bình có thể không tồn tại vì tổng / tích phân hóa ra có dạng

0

$0$

\infty - \infty

$\infty - \infty$

— Dilip Sarwate