Làm thế nào để tính toán phân kỳ / khoảng cách Kullback-Leibler?


10

Tôi có ba bộ dữ liệu X, Y và Z. Mỗi bộ dữ liệu xác định tần suất của một sự kiện xảy ra. Ví dụ:

Tập dữ liệu X: E1: 4, E2: 0, E3: 10, E4: 5, E5: 0, E6: 0, v.v. ..
Tập dữ liệu Y: E1: 2, E2: 3, E3: 7, E4: 6, E5: 0, E6: 0, v.v.
Tập dữ liệu Z: E1: 0, E2: 4, E3: 8, E4: 4, E5: 1, E6: 0, v.v.

Tôi phải tìm phân kỳ KL giữa X và Y; và giữa X và Z. Như bạn có thể thấy đối với một số sự kiện sẽ có giá trị 0 và khác không. Đối với một số sự kiện, cả ba bộ dữ liệu là 0.

Tôi sẽ đánh giá cao nếu ai đó có thể giúp tôi tìm ra sự khác biệt của KL cho việc này. Tôi không phải là một nhà thống kê, vì vậy tôi không có nhiều ý tưởng. Các hướng dẫn tôi đang xem trực tuyến là một chút quá phức tạp đối với sự hiểu biết của tôi.

Câu trả lời:


11

Để trả lời câu hỏi của bạn, chúng ta nên nhớ lại định nghĩa về phân kỳ KL :

DKL(Y||X)=i=1Nln(YiXi)Yi

Trước hết bạn phải đi từ những gì bạn có để phân phối xác suất. Đối với điều này, bạn nên bình thường hóa dữ liệu của mình sao cho tổng hợp thành một:

Xi:=Xii=1NXiYi:=Yii=1NYiZi:=Zii=1NZi

Sau đó, đối với các giá trị rời rạc, chúng tôi có một giả định rất quan trọng cần thiết để đánh giá phân kỳ KL và điều đó thường bị vi phạm:

Xi=0Yi=0

XiYiln(Yi/Xi)Yi

DKL(X||Y)DKL(Y||X)

Những gì tôi có thể khuyên từ quan điểm thực tế là:

hoặc làm cho các sự kiện của bạn "lớn hơn" sao cho bạn sẽ có ít số không

hoặc thu được nhiều dữ liệu hơn, như vậy bạn sẽ bao gồm cả các sự kiện hiếm gặp với ít nhất một mục nhập.

Nếu bạn không thể sử dụng bất kỳ lời khuyên nào ở trên, thì có lẽ bạn sẽ cần tìm một số liệu khác giữa các bản phân phối. Ví dụ,

I(X,Y)=i=1Nj=1Np(Xi,Yj)ln(p(Xi,Yj)p(Xi)p(Yj))p(Xi,Yi)

Hy vọng nó sẽ giúp.


0

nhập mô tả hình ảnh ở đây

Bạn có thể muốn đặt \ epsilon thành một số giá trị rất nhỏ 0,00001 (giả sử) và tiếp tục với các giá trị khác không cho tất cả Xác suất và tính điểm KL.

Xin vui lòng cho tôi biết nếu điều này làm việc.


2
LATEX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.