Phân kỳ Jensen-Shannon cho phân phối chuẩn bivariate


8

Đưa ra hai phân phối chuẩn bivariate và , tôi đang cố gắng tính toán phân kỳ Jensen-Shannon giữa chúng, được định nghĩa (đối với trường hợp rời rạc) là: trong đó KLD là phân kỳ Kullback-Leibler và M = \ frac {1} {2} (P + Q) Tôi đã tìm ra cách tính KLD theo các tham số của bản phân phối, và do đó là JSD . PN(μp,Σp)QN(μq,Σq)JSD(PQ)=12(KLD(PM)+KLD(QM))KLDM=12(P+Q)
KLDJSD

Nghi ngờ của tôi là:

  1. Để tính M , tôi chỉ cần thực hiện MN(12(μp+μq),12(Σp+Σq)) . Thê nay đung không?

  2. Tôi đã đọc trong [ 1 ] rằng JSD bị ràng buộc, nhưng điều đó dường như không đúng khi tôi tính toán như mô tả ở trên cho các bản phân phối bình thường. Điều đó có nghĩa là tôi đang tính toán sai, vi phạm một giả định hay điều gì khác mà tôi không hiểu?

Câu trả lời:


8

Thước đo trung điểm là phân phối hỗn hợp của hai quy tắc đa biến, do đó, nó không có dạng mà bạn đưa ra trong bài viết gốc. Đặt là hàm mật độ xác suất của vectơ ngẫu nhiên và là pdf của . Thì pdf của thước đo trung điểm là Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)

φm(x)=12φp(x)+12φq(x).

Phân kỳ Jensen-Shannon là nơi biểu thị (khác biệt) entropy tương ứng với biện pháp .

JSD=12(KL(PM)+KL(QM))=h(M)12(h(P)+h(Q)),
h(P)P

Do đó, tính toán của bạn giảm xuống để tính toán entropies. Đối với đa biến thông thường , câu trả lời nổi tiếng là và bằng chứng có thể được tìm thấy trong bất kỳ số nguồn nào, ví dụ, Cover và Thomas (1991), trang 230-231. Điều đáng nói là entropy của một bình thường đa biến là bất biến đối với giá trị trung bình, như biểu thức trên cho thấy. Tuy nhiên, điều này gần như chắc chắn không mang đến trường hợp hỗn hợp quy tắc. (Hãy suy nghĩ về việc chọn một bình thường rộng lớn tập trung ở mức 0 và một bình thường tập trung khác trong đó cái sau được đẩy ra xa khỏi điểm gốc.)N(μ,Σ)

12log2((2πe)n|Σ|)

Đối với thước đo trung điểm, mọi thứ dường như phức tạp hơn. Mà tôi biết, không có biểu thức dạng đóng cho entropy khác biệt . Tìm kiếm trên Google mang lại một vài lượt truy cập tiềm năng, nhưng những lượt truy cập hàng đầu dường như không đưa ra các biểu mẫu đóng trong trường hợp chung. Bạn có thể bị mắc kẹt với xấp xỉ số lượng này theo một cách nào đó.h(M)

Cũng lưu ý rằng bài báo mà bạn tham khảo không hạn chế việc xử lý chỉ phân phối riêng lẻ. Họ đối xử với một trường hợp chung đủ để vấn đề của bạn nằm trong khuôn khổ của họ. Xem phần giữa của cột hai trên trang 1859. Đây là nơi cũng cho thấy sự phân kỳ bị giới hạn. Điều này đúng cho trường hợp của hai biện pháp chung và không bị hạn chế trong trường hợp hai phân phối rời rạc.

Sự khác biệt của Jensen-Shannon đã xuất hiện một vài lần gần đây trong các câu hỏi khác trên trang web này. Xem ở đâyở đây .


Phụ lục : Lưu ý rằng một hỗn hợp các quy tắc không giống như một tổ hợp tuyến tính của các quy tắc. Cách đơn giản nhất để thấy điều này là xem xét trường hợp một chiều. Đặt và và để chúng độc lập với nhau. Sau đó, một hỗn hợp của hai quy tắc sử dụng trọng số cho có phân phối X1N(μ,1)X2N(μ,1)(α,1α)α(0,1)

φm(x)=α12πe(x+μ)22+(1α)12πe(xμ)22.

Phân phối kết hợp tuyến tính của và sử dụng cùng trọng số như trước đây, thông qua thuộc tính ổn định của phân phối bình thường là trong đó .X1X2

φ(x)=12πσ2e(x(12α)μ)22σ2,
σ2=α2+(1α)2

Hai bản phân phối này rất khác nhau, mặc dù chúng có cùng một nghĩa. Đây không phải là một tai nạn và xuất phát từ sự tuyến tính của sự kỳ vọng.

Để hiểu phân phối hỗn hợp, hãy tưởng tượng rằng bạn phải đến một nhà tư vấn thống kê để cô ấy có thể tạo ra các giá trị từ phân phối này cho bạn. Cô ấy nắm giữ một nhận thức về trong một lòng bàn tay và một nhận thức về trong lòng bàn tay kia (mặc dù bạn không biết ai trong hai lòng bàn tay đang ở trong đó). Bây giờ, trợ lý của cô ấy ném một đồng xu thiên vị với xác suất ra khỏi tầm nhìn của bạn và sau đó đến và thì thầm kết quả vào tai của nhà thống kê. Cô ấy mở một trong những lòng bàn tay của mình và cho bạn thấy sự nhận ra, nhưng không cho bạn biết kết quả của việc lật đồng xu. Quá trình này tạo ra sự phân phối hỗn hợp.X1X2α

Mặt khác, sự kết hợp tuyến tính có thể được hiểu trong cùng một bối cảnh. Nhà tư vấn thống kê chỉ đơn thuần thực hiện cả hai nhận thức, nhân số thứ nhất với và lần thứ hai bằng , thêm kết quả lên và hiển thị cho bạn.α(1α)


Cảm ơn câu trả lời của bạn. Vì vậy, vấn đề của tôi nằm ở (cách tôi tính toán) phân phối điểm giữa. Xin thứ lỗi cho sự thiếu hiểu biết của tôi nếu tôi hỏi một câu hỏi rõ ràng, nhưng phân phối trung điểm khác với tổng các biến ngẫu nhiên phân phối thông thường như thế nào? Có phải bởi vì chúng ta đang ở trong một trường hợp hai biến?
jorges

2
@jorges Tổng sẽ là bình thường và do đó là đối xứng về một chế độ duy nhất. Khi hai phương tiện cách nhau đủ xa (so với SD của chúng), phân phối hỗn hợp là lưỡng kim . Trong mọi trường hợp, hỗn hợp là bình thường ngoại trừ trong các trường hợp suy biến (phương tiện bằng nhau và SD bằng nhau). Điều này cũng rõ ràng từ công thức cho : trung bình số mũ này không thể được viết dưới dạng hàm mũ của dạng bậc hai. φm
whuber

@whuber và hồng y: Trong khi trực giác tôi hiểu những gì bạn nói, tôi dường như đang gặp vấn đề nghiêm trọng với các khái niệm. Tôi không thực sự là một nhà thống kê và tôi nghĩ rằng tôi đang trộn "tổng các biến ngẫu nhiên" với "phân phối hỗn hợp". Tôi không thực sự tranh luận về những gì hồng y và bạn đã trả lời, mà là cố gắng hiểu sự khác biệt và khi nào nên sử dụng nó, vì tôi có thể đang mắc phải những sai lầm tương tự ở nơi khác. Tôi sẽ quay lại để đọc và xem liệu tôi có thể làm sáng tỏ bản thân mình không. Cảm ơn câu trả lời của bạn.
jorges

2

Câu trả lời của Đức Hồng Y là đúng. Bạn đang cố gắng để có được một giải pháp dạng đóng cho phân kỳ Jensen-Shannon của hai Gaussian; không có giải pháp như vậy tồn tại.

Tuy nhiên, bạn có thể tính toán Jensen-Shannon với độ chính xác tùy ý bằng cách sử dụng lấy mẫu Monte Carlo. Những gì bạn yêu cầu là một cách để tính và bằng cách mở rộng . Phân kỳ Kullback-Leibler được định nghĩa là:KLD(P|M)KLD(Q|M)

KLD(P|M)=P(x)log(P(x)M(x))dx

Giá trị gần đúng của Monte Carlo này là:

KLDapprox(P|M)=1ninlog(P(xi)M(xi))

trong đó đã được lấy mẫu từ , điều này dễ dàng vì nó là một Gaussian trong trường hợp của bạn. Khi , . có thể được tính là .xiP(x)nKLDapprox(P|M)KLD(P|M)M(xi)M(xi)=12P(xi)+12Q(xi)


HI @FrankD - Tôi đã thử thực hiện đề xuất của bạn ở đây: stats.stackexchange.com/questions/345915/ Mặc dù tôi không nghĩ đó là ý nghĩa của bạn. Con trỏ được chào đón nhất.
Astrid
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.