Tại sao nó thường được giả định phân phối Gaussian?


13

Trích dẫn từ một bài viết trên Wikipedia về ước tính tham số cho trình phân loại Bayes ngây thơ : "một giả định điển hình là các giá trị liên tục được liên kết với mỗi lớp được phân phối theo phân phối Gaussian."

Tôi hiểu rằng phân phối Gaussian thuận tiện cho các lý do phân tích. Tuy nhiên, có lý do nào khác trong thế giới thực để đưa ra giả thuyết này không? Điều gì xảy ra nếu dân số bao gồm hai quần thể phụ (người thông minh / người câm, táo lớn / nhỏ)?


5
Có lẽ vì định lý giới hạn trung tâm, các phân phối Gaussian phù hợp với nhiều người, mặc dù không có nghĩa là tất cả, các phép đo của hiện tượng vật lý? Với các quần thể phụ, người ta có thể nhận được các phân phối Gaussian hỗn hợp .
Dilip Sarwate

1
Phần tương tự (tôi giả sử bạn đang xem bài viết của Naive Bayes) chỉ ra rằng binning có lẽ là một ý tưởng tốt hơn nếu bạn không biết phân phối. Ai đó có lẽ nên chỉnh sửa bài viết trên wikipedia để làm rõ hơn rằng người ta chỉ nên giả sử gaussian nếu anh ta có thể tranh luận lý do tại sao đó là gaussian (ví dụ vẽ biểu đồ dữ liệu hoặc theo mô hình phụ gia của CLT).
rm999

Câu trả lời:


6

Ít nhất là đối với tôi, giả định về tính quy phạm phát sinh từ hai lý do (rất mạnh mẽ):

  1. Định lý giới hạn trung tâm.

  2. Phân phối Gaussian là một entropy tối đa (đối với phiên bản liên tục của phân phối entropy của Shannon).

Tôi nghĩ rằng bạn nhận thức được điểm đầu tiên: nếu mẫu của bạn là tổng của nhiều gói, thì miễn là một số điều kiện nhẹ được thỏa mãn, phân phối là khá nhiều gaussian (có những khái quát về CLT trong thực tế bạn không phải giả sử rằng các rv của tổng được phân phối giống hệt nhau, xem, ví dụ, Lyapunov CLT).

Điểm thứ hai là một điểm mà đối với một số người (các nhà vật lý đặc biệt) có ý nghĩa hơn: đưa ra khoảnh khắc thứ nhất và thứ hai của phân phối, phân phối mà ít thông tin giả định (nghĩa là bảo thủ nhất) đối với biện pháp entropy liên tục của Shannon (đó là hơi tùy tiện trong trường hợp liên tục, nhưng, ít nhất là đối với tôi, hoàn toàn khách quan trong trường hợp rời rạc, nhưng đó là câu chuyện khác), là phân phối gaussian. Đây là một dạng của "nguyên tắc entropy tối đa", không phổ biến vì việc sử dụng thực tế của hình thức entropy có phần tùy ý (xem bài viết Wikipedia này để biết thêm thông tin về biện pháp này ).

μΣ

PD: Tôi phải thêm vào nguyên tắc entropy tối đa rằng, theo bài viết này , nếu bạn tình cờ biết phạm vi biến thể của biến, bạn phải điều chỉnh phân phối bạn có được theo nguyên tắc entropy tối đa.


3

Câu trả lời của tôi đồng ý với phản hồi đầu tiên. Định lý giới hạn trung tâm cho bạn biết rằng nếu thống kê của bạn là một tổng hoặc trung bình thì nó sẽ xấp xỉ bình thường trong các điều kiện kỹ thuật nhất định bất kể sự phân phối của các mẫu riêng lẻ. Nhưng bạn đã đúng rằng đôi khi mọi người mang điều này quá xa chỉ vì nó có vẻ như là triệu tập. Nếu số liệu thống kê của bạn là một tỷ lệ và mẫu số có thể bằng 0 hoặc gần với nó, tỷ lệ này sẽ quá nặng so với bình thường. Gosset nhận thấy rằng ngay cả khi bạn lấy mẫu từ phân phối chuẩn, trung bình chuẩn hóa trong đó độ lệch chuẩn mẫu được sử dụng cho hằng số chuẩn hóa, phân phối là phân phối t với n-1 độ tự do khi n là cỡ mẫu. Trong các thí nghiệm tại hiện trường của mình tại Nhà máy bia Guiness, anh ta có các cỡ mẫu có thể nằm trong khoảng 5-10. Trong những trường hợp đó, phân phối t tương tự như phân phối chuẩn thông thường ở chỗ nó đối xứng về 0 nhưng nó có đuôi nặng hơn nhiều. Lưu ý rằng phân phối t không hội tụ theo tiêu chuẩn thông thường khi n trở nên lớn. Trong nhiều trường hợp, sự phân phối mà bạn có thể là lưỡng tính vì nó là hỗn hợp của hai quần thể. Đôi khi những phân phối này có thể phù hợp như một hỗn hợp của các phân phối bình thường. Nhưng họ chắc chắn không giống như một bản phân phối bình thường. Nếu bạn nhìn vào một cuốn sách giáo khoa thống kê cơ bản, bạn sẽ thấy nhiều phân phối liên tục và rời rạc tham số thường xuất hiện trong các vấn đề suy luận. Đối với dữ liệu rời rạc, chúng ta có nhị thức nhị phân, Poisson, hình học, siêu bội và âm nhị phân để đặt tên cho một số ít. Các ví dụ liên tục bao gồm hình vuông chi, lognatural, Cauchy, số mũ âm, Weibull và Gumbel.


2

Việc sử dụng CLT để chứng minh việc sử dụng phân phối Gaussian là một ngụy biện phổ biến vì CLT được áp dụng cho trung bình mẫu, không phải cho các quan sát riêng lẻ. Do đó, tăng kích thước mẫu của bạn, không có nghĩa là mẫu gần với tính chuẩn hơn.

Phân phối Gaussian thường được sử dụng vì:

  1. Ước tính khả năng tối đa là đơn giản.
  2. Suy luận Bayes rất đơn giản (sử dụng các linh mục liên hợp hoặc các linh mục kiểu Jeffreys).
  3. Nó được thực hiện trong hầu hết các gói số.
  4. Có rất nhiều lý thuyết về phân phối này về mặt kiểm tra giả thuyết.
  5. Thiếu kiến ​​thức về các lựa chọn khác (linh hoạt hơn). ...

Tất nhiên, tùy chọn tốt nhất là sử dụng phân phối có tính đến các đặc điểm của bối cảnh của bạn, nhưng điều này có thể là thách thức. Tuy nhiên, đó là điều mà mọi người nên làm

"Mọi thứ nên được làm đơn giản nhất có thể, nhưng không đơn giản hơn." (Albert Einstein)

Tôi hi vọng cái này giúp được.

Lời chúc tốt nhất.


Tại sao các downvote? phản biện nào cho lời giải thích này?
lmsasu

4
Niềm tin rằng "Việc sử dụng CLT để biện minh cho việc sử dụng phân phối Gaussian là một ngụy biện phổ biến vì CLT được áp dụng cho nghĩa của mẫu" tự nó là một ngụy biện. Ví dụ, các electron trong một dây dẫn đang di chuyển ngẫu nhiên. Điện tích nhỏ trên mỗi electron đóng góp vào điện áp nhiễu ròng (gọi là nhiễu nhiệt) có thể đo được trên các cực của dây dẫn. Mỗi đóng góp đều nhỏ, có nhiều electron và do đó thông qua CLT, nhiễu được mô hình hóa như một quá trình ngẫu nhiên Gaussian. Mô hình này đã được xác nhận chéo trong nhiều nghiên cứu thử nghiệm.
Dilip Sarwate

1
Đoạn đầu tiên này là khó hiểu và có vẻ lạc đề. Khi áp dụng CLT, chúng ta thường nói rằng một phân phối là gaussian vì mỗi quan sát riêng lẻ là tổng / giá trị trung bình của nhiều quá trình. Nếu đoạn đầu tiên bị xóa tôi nghĩ đây sẽ là câu trả lời tốt.
rm999

1
@ rm999 "Nếu đoạn đầu tiên bị xóa tôi nghĩ đây sẽ là một câu trả lời hay". Trên thực tế, đoạn đầu tiên mấu chốt của câu trả lời vì phần còn lại chỉ chỉ ra cách mô hình Gaussian hữu ích về mặt phân tích - điều mà OP đã hiểu - và không đáp ứng với câu hỏi được hỏi.
Dilip Sarwate

@Dilip: (+1) Hạt nhân của một câu trả lời rất hay có mặt trong bình luận đầu tiên của bạn. Vui lòng xem xét mở rộng về nó trong một bài riêng biệt.
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.