Khoảng cách giữa hỗn hợp Gaussian hữu hạn và Gaussian là bao nhiêu?


12

Giả sử tôi có một hỗn hợp gồm nhiều Gaussian có trọng số, phương tiện và độ lệch chuẩn đã biết. Các phương tiện không bằng nhau. Tất nhiên, độ lệch trung bình và độ lệch chuẩn của hỗn hợp có thể được tính toán, vì các khoảnh khắc được tính trung bình trọng số của các khoảnh khắc của các thành phần. Hỗn hợp không phải là một phân phối bình thường, nhưng nó là bao xa so với bình thường?

Hỗn hợp Gaussian cách nhau bởi 2 độ lệch chuẩn so với Gaussian có cùng giá trị trung bình và phương sai

Hình trên cho thấy mật độ xác suất của hỗn hợp Gaussian với các phương tiện thành phần được phân tách bằng độ lệch chuẩn (của các thành phần) và một Gaussian duy nhất có cùng giá trị trung bình và phương sai.2

Hỗn hợp Gaussian cách nhau 1 độ lệch chuẩn so với Gaussian có cùng giá trị trung bình và phương sai

Ở đây các phương tiện được phân tách bằng độ lệch chuẩn và khó có thể tách hỗn hợp ra khỏi Gaussian bằng mắt.1


Động lực: Tôi không đồng ý với một số người lười biếng về một số phân phối thực tế mà họ chưa đo được mà họ cho là gần với mức bình thường vì điều đó sẽ tốt. Tôi cũng lười Tôi cũng không muốn đo lường sự phân phối. Tôi muốn có thể nói rằng các giả định của họ không nhất quán, bởi vì họ đang nói rằng một hỗn hợp hữu hạn của Gaussian với các phương tiện khác nhau là một Gaussian không đúng. Tôi không chỉ muốn nói rằng hình dạng tiệm cận của đuôi là sai bởi vì đây chỉ là những xấp xỉ được cho là chính xác một cách hợp lý trong một vài độ lệch chuẩn của giá trị trung bình. Tôi muốn có thể nói rằng nếu các thành phần được xấp xỉ bằng các phân phối bình thường thì hỗn hợp không có, và tôi muốn có thể định lượng được điều này.


Tôi không biết khoảng cách phù hợp từ tính quy tắc để sử dụng: tối đa về sự khác biệt giữa các CDF, khoảng cách , khoảng cách của người điều khiển trái đất, phân kỳ KL, v.v. các biện pháp khác. Tôi sẽ rất vui khi biết khoảng cách đến Gaussian với cùng độ lệch trung bình và độ lệch chuẩn như hỗn hợp hoặc khoảng cách tối thiểu với bất kỳ Gaussian nào. Nếu nó giúp, bạn có thể hạn chế trong trường hợp hỗn hợp có Gaussian để trọng lượng nhỏ hơn lớn hơn .L121/4


2
Nếu một hỗn hợp rất gần với nrmal thì sử dụng xấp xỉ bình thường không phải là sự lười biếng, đó là một sự đơn giản hóa và có thể là một cách tốt. Nhưng trong ví dụ của bạn, bạn cho thấy một hỗn hợp phẳng hơn một nromal ở trung tâm, lan rộng hơn ở giữa và ngắn hơn ở đuôi khi so sánh với mức gần đúng nhất bình thường. Tôi nghĩ rằng bạn sẽ muốn xem xét một số loại khác biệt tích hợp giữa hai cdf. Không phải thước đo KS vì chênh lệch maximu có thể không lớn lắm nhưng chênh lệch trung bình trên một vùng có thể tương đối lớn.
Michael R. Chernick

Chúng ta có thể giả sử rằng có bằng chứng có ý nghĩa thống kê cho hỗn hợp Gaussian trên một xấp xỉ bình thường không? Chúng ta chỉ cần lo lắng liệu sự khác biệt có ý nghĩa thực tế hay không nếu sự khác biệt được biết là có ý nghĩa thống kê. Michaels gợi ý về một cái gì đó giống như thống kê Anderson-Darling sẽ là một nơi hợp lý để bắt đầu.
Dikran Marsupial

1/22

3
Có vẻ như bạn thực sự đang hỏi một câu hỏi lựa chọn mô hình: được cung cấp một số dữ liệu cho mô hình, khi nào nên chọn phân phối Bình thường so với hỗn hợp (hay nói chung hơn, làm thế nào để chọn số lượng thành phần hỗn hợp)? Lọc lại câu hỏi như thế này sẽ cho phép bạn truy cập, ồ, vài trăm câu hỏi liên quan trên trang web này :-).
whuber

@whuber: khoảng cách đến mức bình thường sau đó có thể được biểu thị bằng công suất (trung bình) của phép thử nhằm tách hỗn hợp khỏi Gaussian đơn.
Tây An

Câu trả lời:


9

Phân kỳ KL sẽ là tự nhiên vì bạn có phân phối cơ sở tự nhiên, Gaussian đơn, từ đó hỗn hợp của bạn phân kỳ. Mặt khác, sự phân kỳ KL (hoặc dạng 'khoảng cách' đối xứng của nó) giữa hai hỗn hợp Gaussian, trong đó vấn đề của bạn là một trường hợp đặc biệt, nói chung có vẻ khó hiểu. Hershey và Olson (2007) trông giống như một bản tóm tắt hợp lý về các xấp xỉ có sẵn, bao gồm các phương pháp đa dạng có thể có thể đưa ra các giới hạn dễ dàng hơn.

Tuy nhiên, nếu bạn muốn tranh luận về tác động xấu của việc giả định một thứ gì đó là Gaussian khi nó thực sự là một hỗn hợp thì tốt nhất bạn nên biết về hậu quả mà bạn thực sự quan tâm - một cái gì đó cụ thể hơn là 'sai '(Đây là điểm của Michael-Chernick). Ví dụ: hậu quả của một bài kiểm tra, hoặc một khoảng thời gian, hoặc somesuch. Hai tác dụng rõ ràng của hỗn hợp là quá mức, được đảm bảo khá nhiều, và đa phương thức, sẽ gây nhầm lẫn tối đa hóa.


1

Hãy để tôi theo dõi về việc xem xét các hậu quả của đặc tả phân phối không chính xác. Thay vì sử dụng thước đo chung về khoảng cách, chẳng hạn như Phân kỳ KL, bạn có thể đánh giá một thước đo tùy chỉnh về "sự khác biệt", gây ra hậu quả trong tầm tay.

Ví dụ, nếu phân phối sẽ được sử dụng để tính toán rủi ro, ví dụ để xác định rằng xác suất thất bại là đủ thấp, thì điều duy nhất quan trọng trong sự phù hợp là các tính toán xác suất ở đuôi cực đoan. Điều này có thể liên quan đến các quyết định về các chương trình trị giá hàng tỷ đô la, và liên quan đến các vấn đề của sự sống và cái chết.

Đâu là giả định bình thường có khả năng không chính xác nhất? Trong nhiều trường hợp, trong các đuôi cực đoan, nơi duy nhất quan trọng đối với các tính toán rủi ro quan trọng này. Ví dụ, phân phối thực của bạn là hỗn hợp các Normals có cùng giá trị trung bình, nhưng độ lệch chuẩn khác nhau, thì các đuôi của phân phối hỗn hợp sẽ béo hơn các đuôi của phân phối chuẩn có cùng độ lệch chuẩn và trung bình. Điều này có thể dễ dàng dẫn đến các lệnh chênh lệch cường độ (đánh giá thấp rủi ro) cho xác suất ở đuôi cực đoan.

BạnP(XMTôixtbạnre>Bạn)-P(XNormmộttôi>Bạn)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.