Thước đo trung điểm là phân phối hỗn hợp của hai quy tắc đa biến, do đó, nó không có dạng mà bạn đưa ra trong bài viết gốc. Đặt là hàm mật độ xác suất của vectơ ngẫu nhiên và là pdf của . Thì pdf của thước đo trung điểm là
Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)
φm(x)=12φp(x)+12φq(x).
Phân kỳ Jensen-Shannon là
nơi biểu thị (khác biệt) entropy tương ứng với biện pháp .
JSD=12(KL(P∥M)+KL(Q∥M))=h(M)−12(h(P)+h(Q)),
h(P)P
Do đó, tính toán của bạn giảm xuống để tính toán entropies. Đối với đa biến thông thường , câu trả lời nổi tiếng là
và bằng chứng có thể được tìm thấy trong bất kỳ số nguồn nào, ví dụ, Cover và Thomas (1991), trang 230-231. Điều đáng nói là entropy của một bình thường đa biến là bất biến đối với giá trị trung bình, như biểu thức trên cho thấy. Tuy nhiên, điều này gần như chắc chắn không mang đến trường hợp hỗn hợp quy tắc. (Hãy suy nghĩ về việc chọn một bình thường rộng lớn tập trung ở mức 0 và một bình thường tập trung khác trong đó cái sau được đẩy ra xa khỏi điểm gốc.)N(μ,Σ)
12log2((2πe)n|Σ|)
Đối với thước đo trung điểm, mọi thứ dường như phức tạp hơn. Mà tôi biết, không có biểu thức dạng đóng cho entropy khác biệt . Tìm kiếm trên Google mang lại một vài lượt truy cập tiềm năng, nhưng những lượt truy cập hàng đầu dường như không đưa ra các biểu mẫu đóng trong trường hợp chung. Bạn có thể bị mắc kẹt với xấp xỉ số lượng này theo một cách nào đó.h(M)
Cũng lưu ý rằng bài báo mà bạn tham khảo không hạn chế việc xử lý chỉ phân phối riêng lẻ. Họ đối xử với một trường hợp chung đủ để vấn đề của bạn nằm trong khuôn khổ của họ. Xem phần giữa của cột hai trên trang 1859. Đây là nơi cũng cho thấy sự phân kỳ bị giới hạn. Điều này đúng cho trường hợp của hai biện pháp chung và không bị hạn chế trong trường hợp hai phân phối rời rạc.
Sự khác biệt của Jensen-Shannon đã xuất hiện một vài lần gần đây trong các câu hỏi khác trên trang web này. Xem ở đây và ở đây .
Phụ lục : Lưu ý rằng một hỗn hợp các quy tắc không giống như một tổ hợp tuyến tính của các quy tắc. Cách đơn giản nhất để thấy điều này là xem xét trường hợp một chiều. Đặt và và để chúng độc lập với nhau. Sau đó, một hỗn hợp của hai quy tắc sử dụng trọng số cho có phân phối
X1∼N(−μ,1)X2∼N(μ,1)(α,1−α)α∈(0,1)
φm(x)=α⋅12π−−√e−(x+μ)22+(1−α)⋅12π−−√e−(x−μ)22.
Phân phối kết hợp tuyến tính của và sử dụng cùng trọng số như trước đây, thông qua thuộc tính ổn định của phân phối bình thường là
trong đó .X1X2
φℓ(x)=12πσ2−−−−√e−(x−(1−2α)μ)22σ2,
σ2=α2+(1−α)2
Hai bản phân phối này rất khác nhau, mặc dù chúng có cùng một nghĩa. Đây không phải là một tai nạn và xuất phát từ sự tuyến tính của sự kỳ vọng.
Để hiểu phân phối hỗn hợp, hãy tưởng tượng rằng bạn phải đến một nhà tư vấn thống kê để cô ấy có thể tạo ra các giá trị từ phân phối này cho bạn. Cô ấy nắm giữ một nhận thức về trong một lòng bàn tay và một nhận thức về trong lòng bàn tay kia (mặc dù bạn không biết ai trong hai lòng bàn tay đang ở trong đó). Bây giờ, trợ lý của cô ấy ném một đồng xu thiên vị với xác suất ra khỏi tầm nhìn của bạn và sau đó đến và thì thầm kết quả vào tai của nhà thống kê. Cô ấy mở một trong những lòng bàn tay của mình và cho bạn thấy sự nhận ra, nhưng không cho bạn biết kết quả của việc lật đồng xu. Quá trình này tạo ra sự phân phối hỗn hợp.X1X2α
Mặt khác, sự kết hợp tuyến tính có thể được hiểu trong cùng một bối cảnh. Nhà tư vấn thống kê chỉ đơn thuần thực hiện cả hai nhận thức, nhân số thứ nhất với và lần thứ hai bằng , thêm kết quả lên và hiển thị cho bạn.α(1−α)