Có một lời giải thích cho lý do tại sao có rất nhiều hiện tượng tự nhiên theo phân phối bình thường?


29

Tôi nghĩ rằng đây là một chủ đề hấp dẫn và tôi không hoàn toàn hiểu nó. Định luật vật lý nào làm cho rất nhiều hiện tượng tự nhiên có phân phối bình thường? Có vẻ trực quan hơn rằng họ sẽ có phân phối đồng đều.

Thật khó cho tôi để hiểu điều này và tôi cảm thấy tôi đang thiếu một số thông tin. Ai đó có thể giúp tôi với một lời giải thích tốt hoặc liên kết tôi với một cuốn sách / video / bài viết?


Kiểm tra này .
Antoni Parellada

7
Bạn có một lý do vững chắc để nghĩ rằng tiền đề của bạn thực sự là trường hợp?
Glen_b -Reinstate Monica

4
Trên thực tế, phân phối bình thường có thể không phải là phân phối "chiếm ưu thế" trong tự nhiên. Có nhiều hiện tượng và hành vi cực kỳ có giá trị, nặng nề hoặc mô tả các chức năng của luật quyền lực. Gabaix ghi lại nhiều biến thể kinh tế và tài chính của lớp phân phối này trong bài báo Luật điện về kinh tế của ông: Giới thiệu , được ghi chú ở đây ... trang.stern.nyu.edu / ~ xgabaix / con / pl-jep.pdf Shalizi, et al. thảo luận về ước tính theo kinh nghiệm của họ trong bài viết này Phân phối theo luật điện trong dữ liệu thực nghiệm , được ghi nhận ở đây ... santafe.edu/media/ Workepage / 07-12-049.pdf
Mike Hunter

Ai bảo bạn phân phối bình thường dù sao cũng chiếm ưu thế?
Shadowtalker

1
@DJohnson +1 cho các liên kết, nhưng điều quan trọng là chỉ ra rằng một phát hiện chính trong Clauset et al. giấy là có không phải là quá nhiều bản phân phối định luật hàm mũ thực nghiệm được mạnh mẽ hỗ trợ! Trích dẫn những phát hiện, "Chỉ trong một trường hợp, việc phân phối tần suất xuất hiện của các từ trong văn bản tiếng Anh. Luật pháp quyền lực dường như thực sự thuyết phục theo nghĩa là nó phù hợp tuyệt vời với dữ liệu và không có sự thay thế nào mang theo cân nặng."
Sycorax nói Phục hồi lại

Câu trả lời:


30

Hãy để tôi bắt đầu bằng cách từ chối tiền đề. Robert Geary có lẽ đã không nói quá nhiều về trường hợp này khi ông nói (năm 1947) " ... tính bình thường là một huyền thoại; không bao giờ có, và sẽ không bao giờ, một phân phối bình thường. " -
phân phối bình thường là một mô hình *, một xấp xỉ mà đôi khi ít nhiều hữu ích.

* (về điều đó, xem George Box , mặc dù tôi thích phiên bản trong hồ sơ của tôi).

Rằng một số hiện tượng gần như bình thường có thể không có gì đáng ngạc nhiên, vì các hiệu ứng độc lập [hoặc thậm chí không quá tương quan mạnh] nên, nếu có rất nhiều trong số chúng và không có phương sai nào đáng kể so với phương sai của tổng số phần còn lại mà chúng ta có thể thấy phân phối có xu hướng trông bình thường hơn.

Định lý giới hạn trung tâm (nói về sự hội tụ của phân phối chuẩn của mẫu chuẩn có nghĩa là đi đến vô cùng trong một số điều kiện nhẹ) ít nhất cho thấy rằng chúng ta có thể thấy xu hướng về tính quy phạm đó với các cỡ mẫu đủ lớn nhưng hữu hạn.n

Tất nhiên, nếu các phương tiện được tiêu chuẩn hóa là xấp xỉ bình thường, các khoản tiền được tiêu chuẩn hóa sẽ là; đây là lý do cho lý do "tổng hợp nhiều hiệu ứng". Vì vậy, nếu có rất nhiều đóng góp nhỏ cho biến thể và chúng không tương quan cao, bạn có thể có xu hướng nhìn thấy nó.

Định lý Berry-Esseen cho chúng ta một tuyên bố về nó (sự hội tụ đối với các phân phối bình thường) thực sự xảy ra với mẫu được chuẩn hóa có nghĩa là dữ liệu iid (trong điều kiện nghiêm ngặt hơn một chút so với CLT, vì nó yêu cầu thời điểm tuyệt đối thứ ba là hữu hạn), vì cũng như nói với chúng tôi về việc nó xảy ra nhanh như thế nào Các phiên bản tiếp theo của định lý xử lý các thành phần không phân phối giống hệt nhau trong tổng , mặc dù các giới hạn trên về độ lệch so với tính quy tắc là ít chặt chẽ hơn.

Ít chính thức hơn, hành vi của các kết luận với các phân phối hợp lý tốt cho chúng ta thêm lý do (mặc dù có liên quan chặt chẽ) để nghi ngờ nó có thể có xu hướng gần đúng trong các mẫu hữu hạn trong nhiều trường hợp. Convolution hoạt động như một loại toán tử "bôi nhọ" mà những người sử dụng ước tính mật độ hạt nhân trên nhiều loại hạt nhân sẽ quen thuộc; một khi bạn chuẩn hóa kết quả (vì vậy phương sai không đổi mỗi khi bạn thực hiện thao tác như vậy), sẽ có một sự tiến triển về hình dạng đồi ngày càng đối xứng khi bạn lặp đi lặp lại trơn tru (và không có vấn đề gì nếu bạn thay đổi hạt nhân mỗi lần).

Terry Tao đưa ra một số thảo luận thú vị về các phiên bản của định lý giới hạn trung tâm và định lý Berry-Esseen ở đây , và trên đường đi đề cập đến một cách tiếp cận với một phiên bản Berry-Esseen không độc lập.

Vì vậy, có ít nhất một loại tình huống mà chúng ta có thể mong đợi để xem nó, và những lý do chính thức để nghĩ rằng nó thực sự sẽ có xu hướng xảy ra trong những tình huống đó. Tuy nhiên, tốt nhất là bất kỳ ý nghĩa nào mà kết quả của "tổng của nhiều hiệu ứng" sẽ là bình thường là một xấp xỉ. Trong nhiều trường hợp, đó là một xấp xỉ khá hợp lý (và trong các trường hợp bổ sung mặc dù xấp xỉ phân phối không gần, một số quy trình giả định tính bình thường không đặc biệt nhạy cảm với phân phối các giá trị riêng lẻ, ít nhất là trong các mẫu lớn).

Có nhiều trường hợp khác mà hiệu ứng không "thêm" và ở đó chúng ta có thể mong đợi những điều khác xảy ra; ví dụ, trong rất nhiều hiệu ứng dữ liệu tài chính có xu hướng nhân lên (hiệu ứng sẽ di chuyển số lượng theo tỷ lệ phần trăm, như lãi suất và lạm phát và tỷ giá hối đoái chẳng hạn). Ở đó, chúng tôi không mong đợi tính quy phạm, nhưng đôi khi chúng tôi có thể quan sát một xấp xỉ thô đối với tính quy tắc trên thang đo log. Trong các tình huống khác không thể thích hợp, ngay cả trong một ý nghĩa thô bạo. Ví dụ, thời gian giữa các sự kiện thường không được tính gần đúng bởi tính quy tắc hoặc tính quy tắc của nhật ký; không có "khoản tiền" hay "sản phẩm" hiệu ứng nào để tranh luận ở đây. Có rất nhiều hiện tượng khác mà chúng ta có thể đưa ra một số lập luận cho một loại "luật" cụ thể trong các trường hợp cụ thể.


12
+1. Lập luận của bạn bắt đầu đề xuất - khá hợp lý, theo quan điểm của tôi - rằng có thể có một câu trả lời tâm lý cho câu hỏi, chẳng hạn như nhómthink: khi mọi người trong lĩnh vực của bạn nhìn thấy các bản phân phối bình thường, bạn sẽ nói ai khác? Điều này đặc biệt phù hợp với các lĩnh vực điều tra trong đó các quy trình thống kê được xem là công cụ dành cho người đi bộ, có lẽ cần thiết để thánh hóa một bài báo để xuất bản, nhưng nếu không thì ít có giá trị hoặc lợi ích vốn có.
whuber

2
Để đưa ra một ví dụ cụ thể, khi Quetelet phát minh ra BMI (Chỉ số khối cơ thể), anh ta đã làm rõ ràng theo cách mang lại số lượng phân phối bình thường. Chúng tôi đã nói về điều đó ở đây: stats.stackexchange.com/questions/64171/ Kẻ
Matt Krause

Dường như với tôi rằng mọi người đang cố gắng vượt qua câu hỏi này hơn là trả lời nó.
Digio

Geary là một nhà thống kê, vì vậy không có gì lạ khi anh nghĩ rằng sự bình thường là một huyền thoại. Nếu anh ta là một nhà vật lý, anh ta sẽ thấy nó khác đi.
Aksakal

Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
Glen_b -Reinstate Monica

20

Có một câu nói nổi tiếng của Gabriel Lippmann (nhà vật lý, người đoạt giải Nobel), như Poincaré đã nói:

[Phân phối bình thường] không thể có được bằng các khoản khấu trừ nghiêm ngặt. Một số bằng chứng giả định của nó là khủng khiếp [...]. Tuy nhiên, mọi người đều tin điều đó, như M. Lippmann đã nói với tôi một ngày, bởi vì các nhà thí nghiệm tưởng tượng nó là một định lý toán học, trong khi các nhà toán học tưởng tượng nó là một thực tế thực nghiệm.

- Henri Poincaré, Le tính des Probabilités . 1896

[Cette loi] ne s'ussyient pas par des déductions Rigoureuses; cộng với dunestration qu'on a voulu en donner est Grossière [...]. Tout le monde y croit cepunt, me disait un jour M. Lippmann, car les expérimentateurs s'imagesy que c'est un théorème de mathématiques, et les mathématiciens que c'est un fait expérimental.

Dường như chúng tôi không có trích dẫn này trong chuỗi Danh sách trích dẫn thống kê của mình, đó là lý do tại sao tôi nghĩ sẽ tốt khi đăng nó ở đây.


Một downvote? Ai đó ở đây thầm ghét Poincare?
amip nói rằng Phục hồi lại

Kiến thức vật lý của tôi kết thúc với những gì tôi học được ở trường trung học, nhưng ban đầu Gauss không nghiên cứu phân phối trong bối cảnh các phương trình bình thường từ vật lý? Đó là ấn tượng từ Wikipedia của tôi rằng các lỗi Gaussian rơi tự nhiên ra khỏi một số mô hình vật lý cổ điển
Shadowtalker

2
Chúng ta nên tôn vinh Lippmann hơn là tác giả của bon mot này . Gabriel Lippmann là người giành giải thưởng Nobel về Vật lý. (M. ở đây chỉ có nghĩa là Đức Bà, tự nhiên.)
Nick Cox

3
@ssdecontrol Khi tôi nhớ lại, Gauss quan tâm đến các lỗi quan sát thông thường , đặc biệt là trong thiên văn học và trắc địa, nhưng đủ thông minh để biết rằng giả định này là nghi vấn. (Ông cũng, ví dụ, sử dụng độ lệch tuyệt đối trung vị so với trung vị như là một biện pháp chống lây lan vào năm 1816.)
Nick Cox

Đủ công bằng, @Nick. Tôi chỉnh sửa để làm rõ.
amip nói rằng Phục hồi lại

7

Định luật vật lý nào làm cho rất nhiều hiện tượng tự nhiên có phân phối bình thường? Có vẻ trực quan hơn rằng họ sẽ có phân phối đồng đều.

Phân phối bình thường là một nơi phổ biến trong khoa học tự nhiên. Giải thích thông thường là tại sao nó xảy ra trong các lỗi đo lường là thông qua một số dạng lý thuyết số lượng lớn hoặc định lý giới hạn trung tâm (CLT), thường xảy ra như sau: "vì kết quả thí nghiệm bị ảnh hưởng bởi vô số nhiễu loạn đến từ các nguồn không liên quan CLT gợi ý rằng các lỗi thường được phân phối ". Ví dụ, đây là một đoạn trích từ Phương pháp thống kê trong phân tích dữ liệu của WJ Metzger:

Hầu hết những gì chúng tôi đo được trên thực tế là tổng của nhiều rv. Ví dụ: bạn đo chiều dài của bảng bằng thước kẻ. Độ dài bạn đo phụ thuộc vào rất nhiều hiệu ứng nhỏ: thị sai quang học, hiệu chuẩn thước đo, nhiệt độ, bàn tay rung của bạn, v.v ... Một đồng hồ kỹ thuật số có tiếng ồn điện tử ở nhiều nơi trong mạch của nó. Do đó, những gì bạn đo lường không chỉ là những gì bạn muốn đo lường, mà thêm vào đó một số lượng lớn (hy vọng) những đóng góp nhỏ. Nếu số lượng đóng góp nhỏ này lớn, CLT sẽ cho chúng ta biết rằng tổng số tiền của họ là Gaussian được phân phối. Đây thường là trường hợp và là các chức năng giải quyết lý do thường là Gaussian.

Tuy nhiên, như bạn phải biết điều này không có nghĩa là mọi phân phối sẽ bình thường, tất nhiên. Ví dụ, phân phối Poisson là phổ biến trong vật lý khi xử lý các quá trình đếm. Trong quang phổ, phân phối Cauchy (còn gọi là Breit Wigner) được sử dụng để mô tả hình dạng của phổ bức xạ, v.v.

Tôi nhận ra điều này sau khi viết: cả ba bản phân phối được đề cập cho đến nay (Gaussian, Poisson, Cauchy) đều là bản phân phối ổn định , với Poisson là ổn định rời rạc . Bây giờ tôi nghĩ về điều này, có vẻ như một chất lượng quan trọng của một bản phân phối sẽ làm cho nó tồn tại các tập hợp: nếu bạn thêm một loạt các số từ Poisson, thì tổng là một Poisson. Điều này có thể "giải thích" (trong một số ý nghĩa) tại sao nó rất phổ biến.

Trong các ngành khoa học không tự nhiên, bạn phải rất cẩn thận với việc áp dụng phân phối bình thường (hoặc bất kỳ loại nào khác) vì nhiều lý do. Đặc biệt là mối tương quan và sự phụ thuộc là một vấn đề, bởi vì chúng có thể phá vỡ các giả định của CLT. Ví dụ, trong tài chính, người ta biết rằng nhiều chuỗi trông giống như bình thường nhưng có đuôi nặng hơn nhiều , đây là một vấn đề lớn trong quản lý rủi ro.

Cuối cùng, có nhiều lý do vững chắc hơn trong khoa học tự nhiên vì có sự phân phối bình thường hơn là lý do "vẫy tay" mà tôi đã trích dẫn trước đó. Hãy xem xét, chuyển động Brown. Nếu các cú sốc thực sự độc lập và vô hạn, thì chắc chắn sự phân phối của một con đường có thể quan sát được sẽ có sự phân phối bình thường do CLT, xem ví dụ, phương trình (10) trong tác phẩm nổi tiếng của Einstein " ĐẦU TƯ VÀO LÝ THUYẾT PHONG CÁCH BROWNIAN ". Anh ta thậm chí không buồn gọi nó bằng cái tên ngày nay là "Gaussian" hay "bình thường".

Một ví dụ khác là cơ học lượng tử. Điều đó xảy ra nếu sự không chắc chắn của tọa độΔx và khoảnh khắc Δp là từ các phân phối bình thường, sau đó tổng số không chắc chắn ΔxΔpđạt đến mức tối thiểu, ngưỡng không chắc chắn của Heisenberg, xem Eq.235-237 tại đây.

Do đó, đừng ngạc nhiên khi nhận được các phản ứng rất khác nhau đối với việc sử dụng phân phối Gaussian từ các nhà nghiên cứu trong các lĩnh vực khác nhau. Trong một số lĩnh vực như vật lý, một số hiện tượng nhất định được dự kiến ​​sẽ được liên kết tự nhiên với phân phối Gaussian dựa trên lý thuyết rất vững chắc được hỗ trợ bởi số lượng quan sát khổng lồ. Trong các lĩnh vực khác, phân phối chuẩn được sử dụng vì sự thuận tiện kỹ thuật, các thuộc tính toán học tiện dụng hoặc các lý do đáng ngờ khác.


1
+1. The quote is reasonable, however one can note that the measured length cannot be negative (i.e. is bounded) so cannot really follow a normal distribution. It is always an approximation.
amoeba says Reinstate Monica

Unnatural sciences? You mean like Dr. Frankenstein's unseemly experiments? ;-)
Sycorax says Reinstate Monica

1
@user777, it's Nobel laureate Landau's joke: "sciences can be divided into three types: natural, unnatural and antinatural"
Aksakal

@Aksakal: I think this particular link has it wrong; Landau said that sciences are divided into "естественные, неестественные и противоестественные" (instead of "сверхъестественные"). No idea how to translate it though.
amoeba says Reinstate Monica

@amoeba, I'm translating "неестественные" as "unnatural". "сверхъестественные" is "supernatural", me thinks. Maybe Russians can correct me.
Aksakal

2

there is an awful lot of overly complicated explanations here...

A good way it was related to me is the following:

  1. Roll a single die, and you have an equal likelihood of rolling each number (1-6), and hence, the PDF is constant.

  2. Roll two dice and sum the results together, and the PDF is no longer constant. This is because there are 36 combinations, and the summative range is 2 to 12. The likelihood of a 2 is unique singular combination of 1 + 1 . The likelihood of a 12, is also unique in that it can only occur in a single combination of a 6 + 6. Now, looking at 7, there are multiple combinations, i.e. 3 + 4, 5 + 2, and 6 + 1 (and their reverse permutations). As you work away from the mid-value (i.e. 7), there are lesser combinations for 6 & 8 etc until you arrive at the singular combinations of 2 and 12. This example does not result in a clear normal distribution, but the more die you add, and the more samples you take, then the result will tend towards a normal distribution.

  3. Therefore, as you sum a range of independent variables subject to random variation (which each can have their own PDFs), the more the resulting output will tend to normality. This in Six Sigma terms give us what we call the 'Voice of the Process'. This is what we call the result of 'common-cause variation' of a system, and hence, if the output is tending towards normality, then we call this system 'in statistical process control'. Where the output is non-normal (skewed or shifted), then we say the system is subject to 'special cause variation' in which there has been some 'signal' that has biased the outcome in some way.

Hope that helps.


1

What law of physics makes so that so many natural phenomena have normal distribution?

No idea. On the other hand I've also no idea whether it's true, or indeed what 'so many' means.

However, rearranging the problem a little, there is good reason to assume (that is, to model) a continuous quantity that you believe to have a fixed mean and variance with a Normal distribution. That's because the Normal distribution is the result of maximizing entropy subject to those moment constraints. Since, roughly speaking, entropy is a measure of uncertainty, that makes the Normal the most non-commital or maximally uncertain choice of distributional form.

Now, the idea that one should choose a distribution by maximizing its entropy subject to known constraints really does have some physics backing in terms of the number of possible ways to fulfill them. Jaynes on statistical mechanics is the standard reference here.

Note that while maximum entropy motivates Normal distributions in this case, different sorts of constraints can be shown to lead to different distributional families, e.g. the familiar exponential, poisson, binomial, etc.

Sivia and Skilling 2005 ch.5 has an intuitive discussion.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.