Tại sao hỗn hợp của hai biến phân phối thông thường chỉ là lưỡng kim nếu phương tiện của chúng khác nhau ít nhất hai lần độ lệch chuẩn chung?


28

Theo hỗn hợp của hai phân phối bình thường:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_n normal_distribution

"Một hỗn hợp của hai phân phối bình thường có năm tham số để ước tính: hai phương tiện, hai phương sai và tham số trộn. Một hỗn hợp của hai phân phối bình thường có độ lệch chuẩn bằng nhau chỉ là hai chiều nếu phương tiện của chúng khác nhau ít nhất hai lần độ lệch chuẩn chung . "

Tôi đang tìm kiếm một dẫn xuất hoặc giải thích trực quan về lý do tại sao điều này là đúng. Tôi tin rằng nó có thể được giải thích dưới dạng thử nghiệm hai mẫu t:

μ1μ2σp

Trong đó σp là độ lệch chuẩn gộp.


1
Trực giác là, nếu các phương tiện quá gần, thì sẽ có quá nhiều sự chồng chéo trong khối lượng của 2 mật độ nên sự khác biệt về phương tiện sẽ không được nhìn thấy bởi vì sự khác biệt sẽ chỉ được đưa ra với khối lượng của hai mật độ. Nếu hai phương tiện đủ khác nhau, thì khối lượng của hai mật độ sẽ không trùng nhau đến mức đó và sự khác biệt về phương tiện sẽ là rõ ràng. Nhưng tôi muốn thấy một bằng chứng toán học về điều này. Đó là một tuyên bố thú vị. Tôi chưa bao giờ nhìn thấy nó trước đây.
mlofton

2
Chính thức hơn, đối với một hỗn hợp 50:50 của hai phân phối chuẩn với SD cùng nếu bạn viết mật độ f ( x ) = 0,5 g 1 ( x ) + 0,5 g 2 ( x ) ở dạng đầy đủ cho thấy các thông số, bạn sẽ thấy rằng đạo hàm thứ hai của nó thay đổi ký hiệu tại điểm giữa giữa hai phương tiện khi khoảng cách giữa các phương tiện tăng từ dưới 2 σ lên trên. σ,f(x)=0.5g1(x)+0.5g2(x)2σ
BruceET

Câu trả lời:


53

Con số này từ bài báo được liên kết trong bài viết wiki đó cung cấp một minh họa đẹp: enter image description here

Bằng chứng họ cung cấp dựa trên thực tế là các phân phối bình thường lõm trong một SD của giá trị trung bình của chúng (SD là điểm uốn của pdf thông thường, khi nó đi từ lõm sang lồi). Do đó, nếu bạn thêm hai pdf bình thường với nhau (theo tỷ lệ bằng nhau), miễn là phương tiện của chúng khác nhau ít hơn hai SD, thì tổng pdf (nghĩa là hỗn hợp) sẽ được lõm vào vùng giữa hai phương tiện, và do đó tối đa toàn cầu phải ở điểm chính xác giữa hai phương tiện.

Tham khảo: Schilling, MF, Watkins, AE, & Watkins, W. (2002). Là chiều cao của con người Bimodal? Thống kê người Mỹ, 56 (3), 223 Từ229. doi: 10.1198 / 00031300265


11
+1 Đây là một cuộc tranh luận tốt đẹp, đáng nhớ.
whuber

2
Chú thích hình cũng cung cấp một minh họa đẹp về chữ ghép 'fl' bị đầu hàng sai trong 'biến dạng' :-P
nekomatic

2
@Axeman: Cảm ơn bạn đã thêm tài liệu tham khảo đó - vì điều này đã gây ra một chút tôi đã lên kế hoạch để tự thêm nó, vì tôi thực sự chỉ lặp lại lập luận của họ và tôi không muốn mất quá nhiều tín dụng cho việc đó.
Ruben van Bergen

14

Đây là một trường hợp mà hình ảnh có thể bị đánh lừa, bởi vì kết quả này là một đặc tính đặc biệt của hỗn hợp thông thường : một chất tương tự không nhất thiết phải giữ cho các hỗn hợp khác, ngay cả khi các thành phần là phân phối không đối xứng! Chẳng hạn, một hỗn hợp bằng nhau của hai phân phối Student t cách nhau ít hơn hai lần độ lệch chuẩn chung của chúng sẽ là lưỡng kim. Để có cái nhìn sâu sắc thực sự sau đó, chúng ta phải thực hiện một số phép toán hoặc kháng cáo các thuộc tính đặc biệt của các bản phân phối Bình thường.


Chọn đơn vị đo lường (bởi recentering và rescaling khi cần thiết) để đặt các phương tiện của các bản phân phối phần tại ±μ, μ0, và để làm cho sự hiệp nhất sai chung của họ. Đặt p, 0<p<1, là lượng thành phần trung bình lớn hơn trong hỗn hợp. Điều này cho phép chúng tôi thể hiện mật độ hỗn hợp một cách tổng quát như

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

Bởi vì cả hai mật độ thành phần tăng nơi x<μ và giảm nơi x>μ, các phương thức chỉ có thể xảy ra ở đâu μxμ. Tìm chúng bằng cách phân biệt f với x và đặt nó thành 0. Xóa bất kỳ hệ số tích cực nào chúng tôi có được

0=e2xμp(xμ)+(1p)(x+μ).

Thực hiện các hoạt động tương tự với đạo hàm bậc hai của f và thay thế e2xμ bởi giá trị xác định bởi phương trình trước cho chúng ta biết dấu hiệu của đạo hàm bậc hai tại bất kỳ điểm then chốt là dấu hiệu của

f(x;μ,p)(1+x2μ2)xμ.

Kể từ khi mẫu số là tiêu cực khi μ<x<μ, các dấu hiệu của f là của (1μ2+x2).Rõ ràng là khi μ1, dấu hiệu phải được tiêu cực. Tuy nhiên, trong một phân phối đa phương thức (vì mật độ là liên tục), phải có một antimode giữa hai chế độ bất kỳ, trong đó dấu hiệu là không âm. Vì vậy, khi μ là ít hơn 1 (SD), phân phối phải unimodal.

Kể từ khi tách các phương tiện là 2μ, kết luận của phân tích này là

Một hỗn hợp các phân phối Bình thường là không đồng nhất bất cứ khi nào các phương tiện được phân tách bằng không quá hai lần độ lệch chuẩn chung.

Điều đó tương đương với câu nói trong câu hỏi.


12

Nhận xét từ trên dán ở đây cho liên tục:

"[F] bằng miệng, đối với hỗn hợp 50:50 gồm hai phân phối bình thường có cùng SD, nếu bạn viết mật độ

f(x)=0.5g1(x)+0.5g2(x)
ở dạng đầy đủ hiển thị tham số, bạn sẽ thấy rằng đạo hàm thứ hai của nó thay đổi ký hiệu tại điểm giữa giữa hai phương tiện khi khoảng cách giữa các phương tiện tăng từ dưới 2σ lên trên. "

Bình luận tiếp:

Trong mỗi trường hợp hai đường cong bình thường mà là 'hỗn hợp' có σ=1. Từ trái sang phải khoảng cách giữa các phương tiện là 3σ,2σ,σ, tương ứng. Độ lõm của mật độ hỗn hợp tại điểm giữa (1,5) giữa các phương tiện thay đổi từ âm, sang 0, thành dương.

enter image description here

Mã R cho hình:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))

1
tất cả các câu trả lời là tuyệt vời cảm ơn.
mlofton

3
2/30.001.

1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.

Điểm tốt. Trên thực tế, những gì tôi muốn nói bằng ngôn ngữ viết tắt 'phẳng' là đạo hàm số 2 chính xác ở điểm giữa.
BruceET
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.