Lý do dữ liệu được phân phối bình thường


19

Một số định lý có thể giải thích (nghĩa là nói chung) tại sao dữ liệu trong thế giới thực có thể được dự kiến ​​sẽ được phân phối bình thường?

Có hai cái mà tôi biết:

  1. Định lý giới hạn trung tâm (tất nhiên), cho chúng ta biết rằng tổng của một số biến ngẫu nhiên độc lập có giá trị trung bình và phương sai (ngay cả khi chúng không được phân phối chính xác) có xu hướng được phân phối bình thường

  2. Đặt X và Y là các RV liên tục độc lập với mật độ khác nhau sao cho mật độ khớp của chúng chỉ phụ thuộc vào + . Thì X và Y bình thường.x2y2

(bài chéo từ mathexchange )

Chỉnh sửa: Để làm rõ, tôi không đưa ra bất kỳ tuyên bố nào về lượng dữ liệu thế giới thực được phân phối bình thường. Tôi chỉ hỏi về các định lý có thể cung cấp cái nhìn sâu sắc về loại quy trình có thể dẫn đến dữ liệu phân phối thông thường.


7
Bạn có thể tìm thấy tài liệu liên quan thú vị trong chủ đề của chúng tôi tại stats.stackexchange.com/questions/4364 . Để tránh sự nhầm lẫn tiềm ẩn giữa một số độc giả, tôi muốn thêm (và tôi hy vọng đây là ý định của bạn) rằng câu hỏi của bạn không nên được đọc vì cho rằng tất cả hoặc thậm chí hầu hết các bộ dữ liệu thực tế có thể được xấp xỉ bằng một phân phối bình thường. Thay vào đó, trong một số trường hợp nhất định khi một số điều kiện nhất định, có thể hữu ích khi sử dụng phân phối bình thường làm khung tham chiếu để hiểu hoặc giải thích dữ liệu: vậy những điều kiện đó có thể là gì?
whuber

Cảm ơn vi đương link! Và đó là chính xác, cảm ơn bạn đã làm rõ. Tôi sẽ chỉnh sửa nó vào bài viết gốc.
ẩn danh

@ user43228, " Có, tất nhiên, tấn phân phối khác phát sinh trong vấn đề thế giới thực mà không nhìn bình thường chút nào. " askamathematician.com/2010/02/...
Pacerier

Câu trả lời:


16

Nhiều phân phối giới hạn của RV rời rạc (poisson, nhị thức, v.v.) là xấp xỉ bình thường. Hãy nghĩ về plinko. Trong hầu hết tất cả các trường hợp khi tính chuẩn tắc gần đúng giữ, tính quy tắc chỉ áp dụng cho các mẫu lớn.

Hầu hết dữ liệu trong thế giới thực KHÔNG được phân phối bình thường. Một bài báo của Micceri (1989) có tên " Con kỳ lân, đường cong bình thường và các sinh vật không thể khác " đã kiểm tra 440 thành tựu quy mô lớn và các biện pháp tâm lý. Ông đã tìm thấy rất nhiều sự thay đổi trong các bản phân phối ghi lại những khoảnh khắc của họ và không có nhiều bằng chứng cho sự bình thường (thậm chí gần đúng).

Trong một bài báo năm 1977 của Steven Stigler có tên " Do Robust Ước tính làm việc với dữ liệu thực ", ông đã sử dụng 24 bộ dữ liệu được thu thập từ các nỗ lực nổi tiếng của thế kỷ 18 để đo khoảng cách từ trái đất đến mặt trời và các nỗ lực của thế kỷ 19 để đo tốc độ ánh sáng. Ông đã báo cáo độ lệch mẫu và độ nhiễu trong Bảng 3. Dữ liệu có đuôi nặng.

Trong thống kê, chúng tôi giả định thông thường vì nó làm cho khả năng tối đa (hoặc một số phương pháp khác) thuận tiện. Tuy nhiên, điều mà hai bài báo được trích dẫn ở trên cho thấy, đó là giả định thường rất khó hiểu. Đây là lý do tại sao các nghiên cứu mạnh mẽ là hữu ích.


2
Hầu hết bài đăng này là tuyệt vời, nhưng đoạn giới thiệu làm phiền tôi vì nó có thể dễ dàng bị hiểu sai. Nó dường như để nói - chứ không phải một cách rõ ràng - rằng nói chung, một "mẫu lớn" sẽ nhìn thường được phân phối. Trước những nhận xét tiếp theo của bạn, tôi không tin bạn thực sự muốn nói điều đó.
whuber

Tôi nên rõ ràng hơn - Tôi không gợi ý rằng hầu hết dữ liệu trong thế giới thực thường được phân phối. Nhưng đó là một điểm tuyệt vời để nâng cao. Và tôi giả sử điều bạn muốn nói là phân phối nhị thức với n lớn là bình thường và phân phối poisson với trung bình lớn là bình thường. Những phân phối khác có xu hướng về tính bình thường?
ẩn danh

Cảm ơn, tôi đã chỉnh sửa đoạn đầu tiên. Xem Wald và Wolfowitz (1944) cho một định lý về các dạng tuyến tính dưới hoán vị, ví dụ. Tức là, họ cho thấy hai thống kê mẫu t dưới hoán vị là không bình thường.
bsbk

Phân phối mẫu không phải là "tập dữ liệu trong thế giới thực"! Có lẽ khó khăn tôi gặp phải với sự không nhất quán rõ ràng trong bài đăng của bạn bắt nguồn từ sự nhầm lẫn này giữa phân phối và dữ liệu. Có lẽ nó bắt nguồn từ sự thiếu rõ ràng về quá trình "giới hạn" mà bạn thực sự có trong tâm trí.
whuber

3
Câu hỏi ban đầu là về việc giải thích "một cách khái quát" cách dữ liệu trong thế giới thực bình thường có thể xảy ra. Có thể hình dung rằng dữ liệu thực có thể được tạo ra từ quá trình nhị thức hoặc poisson, cả hai đều có thể được xấp xỉ bằng phân phối chuẩn. Các op đã yêu cầu các ví dụ khác và một ví dụ xuất hiện trong tâm trí là phân phối hoán vị, điều này là không bình thường (trong trường hợp không có mối quan hệ). Tôi không thể nghĩ ra cách nào đó rằng dữ liệu thực sẽ được tạo ra từ phân phối đó để có thể đó là một sự kéo dài.
bsbk

10

Ngoài ra còn có một lý do thông tin lý thuyết cho việc sử dụng phân phối bình thường. Với giá trị trung bình và phương sai, phân phối chuẩn có entropy tối đa trong số tất cả các phân phối xác suất có giá trị thực. Có rất nhiều nguồn thảo luận về tài sản này. Một tóm tắt có thể được tìm thấy ở đây . Một cuộc thảo luận tổng quát hơn của động lực cho việc sử dụng phân phối Gaussian liên quan đến hầu hết các lập luận đề cập đến nay có thể được tìm thấy trong này bài báo từ tạp chí Xử lý tín hiệu.


6
Điều này là ngược, như tôi hiểu nó. Đó là về việc làm cho giả định về tính quy phạm theo nghĩa được xác định nghiêm ngặt là một giả định yếu. Tôi không thấy những gì ngụ ý về dữ liệu trong thế giới thực. Bạn cũng có thể lập luận rằng các đường cong thường thẳng vì đó là giả định đơn giản nhất bạn có thể thực hiện về độ cong. Nhận thức luận không giới hạn bản thể luận! Nếu tài liệu tham khảo bạn trích dẫn vượt quá điều đó, xin vui lòng đánh vần các đối số.
Nick Cox

3

Trong vật lý, CLT thường được trích dẫn là lý do cho các lỗi phân phối thông thường trong nhiều phép đo.

Hai phân phối lỗi phổ biến nhất trong vật lý thực nghiệm là bình thường và Poisson. Loại thứ hai thường gặp trong các phép đo đếm, chẳng hạn như phân rã phóng xạ.

Một tính năng thú vị khác của hai bản phân phối này là tổng các biến ngẫu nhiên từ Gaussian và Poisson thuộc về Gaussian và Poisson.

Có một số cuốn sách về thống kê trong các ngành khoa học thực nghiệm như cuốn này : Gerhard Bohm, Günter Zech, Giới thiệu về thống kê và phân tích dữ liệu cho các nhà vật lý, ISBN 979-3-935702-41-6


0

CLT cực kỳ hữu ích khi đưa ra những suy luận về những thứ như dân số có nghĩa là vì chúng ta đến đó bằng cách tính toán một số loại kết hợp tuyến tính của một loạt các phép đo riêng lẻ. Tuy nhiên, khi chúng ta cố gắng đưa ra những suy luận về các quan sát riêng lẻ, đặc biệt là các quan sát trong tương lai ( ví dụ: các khoảng dự đoán), độ lệch so với tính chuẩn sẽ quan trọng hơn nhiều nếu chúng ta quan tâm đến các đuôi của phân phối. Ví dụ: nếu chúng ta có 50 quan sát, chúng ta sẽ thực hiện ngoại suy rất lớn (và bước nhảy vọt về đức tin) khi chúng ta nói điều gì đó về xác suất quan sát trong tương lai có ít nhất 3 độ lệch chuẩn so với giá trị trung bình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.