Vai trò của phương sai trong Định lý giới hạn trung tâm


10

Tôi đã đọc ở đâu đó rằng lý do chúng ta bình phương sự khác biệt thay vì lấy giá trị tuyệt đối khi tính toán phương sai là phương sai được xác định theo cách thông thường, với hình vuông trong người đề cử, đóng một vai trò duy nhất trong Định lý giới hạn trung tâm.

Vậy thì chính xác vai trò của phương sai trong CLT là gì? Tôi không thể tìm hiểu thêm về điều này, hoặc hiểu nó đúng.

Chúng ta cũng có thể hỏi điều gì khiến chúng ta nghĩ rằng phương sai là thước đo khoảng cách một bộ số được trải ra. Tôi có thể định nghĩa các đại lượng khác, tương tự như phương sai và thuyết phục bạn rằng chúng đo lường sự lây lan của các con số. Để điều này xảy ra, bạn sẽ phải nêu chính xác ý nghĩa của việc truyền bá số, hành vi bạn mong đợi từ mức độ lây lan, v.v. Không có định nghĩa chính thức về lây lan, do đó chúng ta có thể coi phương sai là định nghĩa. Tuy nhiên, vì một số lý do, phương sai được coi là "biện pháp lây lan" tốt nhất.


Tôi đặc biệt đã cố gắng trả lời câu hỏi này trong câu trả lời của tôi tại stats.stackexchange.com/a/3904/919 .
whuber

1
Bây giờ tôi nhớ tôi đã thấy câu trả lời của bạn trước đây, nhưng vấn đề là tôi thực sự không thể tìm thấy từ "phương sai" trong câu trả lời của bạn. Phần nào giải thích chính xác vấn đề? Có lẽ tôi nên đọc lại.
user4205580

3
Tìm "SD", tương đương với phương sai và thuật ngữ "hệ số tỷ lệ". Điểm (khá sâu) ở đây là bản thân phương sai không phải là một lựa chọn duy nhất: đối với bất kỳ phân phối nhất định nào, bạn có thể chọn (gần như) bất kỳ biện pháp lây lan nào bạn muốn! Giả sử rằng thước đo đó hội tụ đến sự phân tán của phân phối cơ bản, điều thực sự quan trọng là khi bạn chuẩn hóa tổng (hoặc giá trị trung bình) của các mẫu iid từ phân phối đó, bạn phải hủy bỏ sự lan truyền của nó bởi một yếu tố bất thường là . Làm như vậy bạn sẽ đạt được một phân phối Bình thường hạn chế. nn
whuber

Câu trả lời:


8

Các tuyên bố cổ điển của Trung Định lý giới hạn (CLT) xem xét một chuỗi các độc lập, biến phân phối hệt ngẫu nhiên với phân phối chung F . Trình tự này mô hình hóa tình huống chúng ta gặp phải khi thiết kế chương trình lấy mẫu hoặc thử nghiệm: nếu chúng ta có thể thu được n quan sát độc lập của cùng một hiện tượng cơ bản, thì bộ sưu tập hữu hạn X 1 , X 2 , Lỗi , X nX1,X2,Giáo dục,Xn,Giáo dụcFnX1,X2,Giáo dục,Xnmô hình dữ liệu dự đoán. Cho phép chuỗi là vô hạn là một cách thuận tiện để xem xét các cỡ mẫu lớn tùy ý.

Luật khác nhau của số lượng lớn khẳng định rằng giá trị trung bình

m(X1,X2,Giáo dục,Xn)= =1n(X1+X2++Xn)

sẽ tiếp cận chặt chẽ sự mong đợi của , μ ( F ) , với xác suất cao, cung cấp F thực sự có một kỳ vọng. (Không phải tất cả các bản phân phối làm.) Điều này ngụ ý độ lệch m ( X 1 , X 2 , ... , X n ) - μ ( F ) (trong đó, như một chức năng của những n ngẫu nhiên biến, cũng là một biến ngẫu nhiên) sẽ có xu hướng nhỏ hơn nFμ(F)Fm(X1,X2,Giáo dục,Xn)-μ(F)nntăng. Các CLT thêm vào này một cách nhiều cụ thể hơn: nó khẳng định (theo một số điều kiện, mà tôi sẽ thảo luận dưới đây) rằng nếu chúng ta rescale lệch này bằng cách , nó sẽ có hàm phân phốiFntiếp cậnmộtsố hàm phân phối chuẩn trung bình bằng 0 khinphát triển lớn. (Câu trả lời của tôi tạihttps://stats.stackexchange.com/a/3904cố gắng để giải thích tại sao điều này là lý do tại sao và các yếu tố củanFnn là cái đúng để sử dụng.)n

Đây không phải là một tuyên bố tiêu chuẩn của CLT. Hãy kết nối nó với thông thường. Việc phân phối bình thường giới hạn bằng 0 sẽ được xác định hoàn toàn bởi tham số thứ hai, thường được chọn là thước đo độ lây lan của nó (một cách tự nhiên!), Như phương sai hoặc độ lệch chuẩn. Đặt là phương sai của nó. Chắc chắn nó phải có một số mối quan hệ với một tài sản tương tự F . Để khám phá điều này có thể là gì, hãy để F có phương sai τ 2 - nhân tiện có thể là vô hạn. Bất kể, vì X i là độc lập, chúng tôi dễ dàng tính toán phương sai của phương tiện:σ2FFτ2XTôi

Var(m(X1,X2,Giáo dục,Xn))= =Var(1n(X1+X2++Xn))= =(1n)2(Var(X1)+Var(X2)++Var(Xn))= =(1n)2(τ2+τ2++τ2)= =τ2n.

Do đó, phương sai của các số dư chuẩn bằng :nó là hằng số. Phương sai của phân phối chuẩn giới hạn, sau đó, phải làτ2chính nó. (Điều này ngay lập tức cho thấy định lý chỉ có thể giữ khiτ2là hữu hạn: đó là giả định bổ sung mà tôi đã đề cập trước đó.)τ2/n×(n)2= =τ2τ2τ2

(Nếu chúng ta đã lựa chọn bất kỳ biện pháp khác lây lan của chúng ta vẫn có thể thành công trong việc kết nối nó với σ 2 , nhưng chúng ta sẽ không phát hiện ra rằng các biện pháp tương ứng của lây lan của độ lệch trung bình chuẩn là hằng số cho tất cả n , mà là một đẹp - mặc dù không cần thiết - đơn giản hóa.)Fσ2n

Nếu chúng ta muốn, chúng ta có thể chuẩn độ lệch trung bình tất cả cùng bằng cách chia chúng bằng cũng như nhân chúng bằng τ . Điều đó sẽ đảm bảo phân phối giới hạn làChuẩnthông thường, với phương sai đơn vị. Cho dù bạn chọn tiêu chuẩn hóa bằngτtheo cách này hay không thực sự là vấn đề của hương vị: đó là cùng một định lý và kết luận giống nhau cuối cùng. Điều quan trọng là các nhân bởinτ .n

Lưu ý rằng bạn có thể nhân sai lệch bởi một số yếu tố khác hơn . Bạn có thể sử dụngn, hoặcn 1 / 2 + 1 / n , hoặc bất cứ điều gì khác mà tiệm hoạt động giống nhưn+điểm kinh nghiệm(-n)n1/2+1/n . Bất kỳ hình thức tiệm cận khác sẽ, trong hạn mức, giảmσ2đến0hoặc thổi nó lên đến. Quan sát này cho thấy sự đánh giá cao của chúng tôi về CLT bằng cách cho thấy mức độ linh hoạt của nó liên quan đến cách tiêu chuẩn hóa được thực hiện. Chúng tôi có thể muốn nêu CLT, theo cách sau.nσ20

Cung cấp độ lệch giữa giá trị trung bình của một chuỗi các biến IID (với phân phối chung ) và sự mong đợi cơ bản được thu nhỏ tiệm bởi F , độ lệch quy mô này sẽ có một số không-bình phân phối giới hạn bình thường có đúng là củaF.nF

Fn


5

Phương sai không quan trọng đối với các định lý giới hạn trung tâm. Đó là điều cần thiết cho iid của người mới bắt đầu làm vườn, Định lý giới hạn trung tâm, người mà hầu hết mọi người đều biết và yêu thích, sử dụng và lạm dụng.

Không có "Định lý" Giới hạn trung tâm, có nhiều Định lý giới hạn trung tâm:

Khu vườn của người mới bắt đầu iid Định lý giới hạn trung tâm. Ngay cả ở đây, sự lựa chọn hợp lý của hằng số định mức (vì vậy một biến thể nâng cao của CLT của người mới bắt đầu) có thể cho phép các Định lý giới hạn trung tâm được chứng minh cho các biến ngẫu nhiên nhất định có phương sai vô hạn (xem Feller Vol. II http://www.amazon.com/Intesistion -Probability-Theory-Application-Edition / dp / 0471257095 trang 260).

Mảng tam giác Lindeberg-Feller Định lý giới hạn trung tâm. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .

Thế giới hoang dã của bất cứ điều gì diễn ra mọi thứ trong tầm nhìn Các định lý giới hạn trung tâm mà phương sai không cần phải tồn tại. Tôi đã từng chứng minh một Định lý giới hạn trung tâm mà không chỉ phương sai không tồn tại mà còn không có nghĩa, và trên thực tế thậm chí không phải là một khoảnh khắc 1 - epsilon cho epsilon tùy ý dương nhỏ. Đó là một bằng chứng đầy lông, bởi vì nó "hầu như" hội tụ, và làm rất chậm. Không có triệu chứng, nó hội tụ thành Bình thường, trong thực tế, kích thước mẫu của hàng triệu thuật ngữ sẽ là cần thiết cho Bình thường để trở thành một xấp xỉ tốt.


Là CLT mà bạn đã chứng minh có thể truy cập ở đâu đó trên web? Nghe có vẻ rất thú vị, và tôi muốn đọc nó.
Alecos Papadopoulos

2
Đó là một bài tập về nhà trong một khóa học xác suất lý thuyết gần 35 năm trước, bị mất vào thời kỳ cát. Chà, nó có thể nằm trong một trong những chiếc hộp của tôi ở đâu đó, nhưng tôi không có khả năng đào nó bất cứ lúc nào sớm. Tôi chỉ đủ thông minh để chứng minh điều đó (với nhiều giờ vất vả), gần như không đủ thông minh để tạo ra nó. Có vô số định lý giới hạn trung tâm khác nhau, định mức là chìa khóa.
Mark L. Stone

1

Các biện pháp lây lan tốt nhất là gì tùy thuộc vào tình huống. Phương sai là một thước đo độ lây lan, là một tham số của phân phối chuẩn. Vì vậy, nếu bạn mô hình hóa dữ liệu của mình với phân phối không thường xuyên, giá trị trung bình (số học) và phương sai theo kinh nghiệm là công cụ ước tính tốt nhất (chúng là "đủ") của các tham số của phân phối bình thường đó. Điều đó cũng đưa ra liên kết đến định lý giới hạn trung tâm, vì đó là về một giới hạn bình thường, nghĩa là giới hạn là một phân phối bình thường. Vì vậy, nếu yoy có đủ các quan sát rằng định lý giới hạn trung tâm có liên quan, một lần nữa bạn có thể sử dụng phân phối chuẩn và phương sai theo kinh nghiệm là mô tả tự nhiên về tính biến thiên, bởi vì nó được gắn với phân phối chuẩn.

Không có liên kết này với phân phối bình thường, sẽ không có ý nghĩa trong đó phương sai là tốt nhất hoặc thậm chí là một mô tả tự nhiên của tính biến thiên.


Không rõ tại sao lý thuyết về công cụ ước tính "tốt nhất" (theo bất kỳ ý nghĩa nào về "tốt nhất") nên có bất kỳ mối liên hệ nào với định lý giới hạn trung tâm. Ví dụ, nếu người ta sử dụng hàm mất bậc hai, thì trung bình và phương sai có thể không phải là ước lượng "tốt nhất" của các tham số phân phối bình thường - thay vào đó, trung vị và IQR có thể là tốt nhất.
whuber

1

Chỉ giải quyết câu hỏi thứ hai:

Tôi đoán rằng phương sai đã là thước đo phân tán được lựa chọn cho hầu hết các nhà thống kê chủ yếu vì lý do lịch sử và sau đó là do quán tính đối với hầu hết các học viên không thống kê.

E[(X-μ)k]k

E(|X-μ|k)k>0k

Vì vậy, một lượng lớn độ lệch nhỏ (cả dương và âm) với một vài độ lệch lớn là đặc điểm của độ phân tán nhỏ, sẽ mang lại một khoảnh khắc trung tâm tương đối nhỏ. Rất nhiều sai lệch lớn sẽ mang lại một khoảnh khắc trung tâm tương đối lớn.

Hãy nhớ khi tôi nói về những lý do lịch sử ở trên? Trước khi sức mạnh tính toán trở nên rẻ và có sẵn, người ta chỉ cần dựa vào các kỹ năng toán học, phân tích để đối phó với sự phát triển của các lý thuyết thống kê.

kk= =1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.