Câu hỏi về phân kỳ KL?


14

Tôi đang so sánh hai phân phối với phân kỳ KL trả về cho tôi một số không được chuẩn hóa, theo những gì tôi đọc về biện pháp này, là lượng thông tin cần thiết để chuyển đổi một giả thuyết sang giả thuyết khác. Tôi có hai câu hỏi:

a) Có cách nào để định lượng phân kỳ KL để nó có cách hiểu có ý nghĩa hơn, ví dụ như kích thước hiệu ứng hoặc R ^ 2 không? Bất kỳ hình thức tiêu chuẩn hóa?

b) Trong R, khi sử dụng KLdiv (gói flexmix), người ta có thể đặt giá trị 'đặc biệt' (tiêu chuẩn đặc biệt = 1e-4) để đặt tất cả các điểm nhỏ hơn đặc biệt theo một số tiêu chuẩn để cung cấp sự ổn định về số. Tôi đã chơi với các giá trị đặc biệt khác nhau và, đối với tập dữ liệu của tôi, tôi nhận được một phân kỳ KL ngày càng lớn hơn với số tôi chọn nhỏ hơn. Chuyện gì đang xảy ra vậy? Tôi hy vọng rằng đặc biệt càng nhỏ, kết quả sẽ càng đáng tin cậy vì họ để cho nhiều 'giá trị thực' trở thành một phần của thống kê. Không? Tôi phải thay đổi đặc biệt vì nó không tính toán thống kê mà chỉ hiển thị dưới dạng NA trong bảng kết quả ...

Câu trả lời:


9

Giả sử bạn được cung cấp n mẫu IID được tạo bởi p hoặc bởi q. Bạn muốn xác định phân phối nào tạo ra chúng. Lấy giả thuyết không có giá trị rằng chúng được tạo bởi q. Đặt một xác suất cho thấy lỗi Loại I, từ chối nhầm giả thuyết khống và b chỉ ra xác suất của lỗi Loại II.

Sau đó, đối với n lớn, xác suất của lỗi loại I ít nhất là

exp(nKL(p,q))

Nói cách khác, đối với quy trình quyết định "tối ưu", xác suất Loại I rơi nhiều nhất theo hệ số exp (KL (p, q)) với mỗi điểm dữ liệu. Lỗi loại II giảm theo hệ số .exp(KL(q,p))

Đối với n tùy ý, a và b có liên quan như sau

blogb1a+(1b)log1banKL(p,q)

aloga1b+(1a)log1abnKL(q,p)

Nếu chúng ta biểu thị giới hạn ở trên là giới hạn dưới trên a về b và KL và giảm b xuống 0, kết quả dường như tiếp cận với "exp (-n KL (q, p))" ngay cả đối với n nhỏ

Thêm chi tiết ở trang 10 tại đây và trang 74-77 của "Lý thuyết và thống kê thông tin" của Kullback (1978).

Một lưu ý phụ, cách giải thích này có thể được sử dụng để thúc đẩy số liệu Thông tin của Fisher, vì đối với bất kỳ cặp phân phối p, q nào ở khoảng cách của Fisher với nhau (k nhỏ) bạn cần có cùng số lượng quan sát để phân biệt chúng


1
+1 Tôi thích cách giải thích này! bạn có thể làm rõ "p dưới e"? tại sao bạn lấy nhỏ bạn nói "xác suất phạm sai lầm ngược lại là" đó là xác suất giới hạn trên hay chính xác? Nếu tôi nhớ, kiểu tiếp cận này là do Chernoff, bạn có tài liệu tham khảo không (tôi thấy tài liệu tham khảo đầu tiên của bạn không làm rõ quan điểm :))?
cướp girard

1
Tại sao tôi lại lấy e ... hmm ... đó là những gì bài báo của Balasubramanian đã làm, nhưng bây giờ, khi quay trở lại Kullback, dường như sự ràng buộc của anh ấy đối với bất kỳ e nào, và anh ấy cũng đưa ra ràng buộc cho hữu hạn, hãy để tôi cập nhật câu trả lời
Yar Tư Bulatov

ok, chúng ta không cần e nhỏ (bây giờ được gọi là b, lỗi Loại II) nhỏ để ràng buộc để giữ, nhưng b = 0 là giá trị mà ràng buộc (exp (-n KL (p, q)) bị ràng buộc Phù hợp với các ràng buộc phức tạp hơn ở trên. Thật kỳ lạ, giới hạn thấp hơn cho lỗi Loại I được đưa ra 0 Lỗi loại II là <1, tôi tự hỏi liệu tỷ lệ lỗi <1 Loại II có thực sự đạt được hay không
Yaroslav Bulatov

1
Trên thực tế, một tài liệu tham khảo dễ hiểu hơn nhiều cho điều này là "Các yếu tố của lý thuyết thông tin" của Cover, trang 309, 12.8 "Bổ đề của Stein"
Yaroslav Bulatov

8

KL có một ý nghĩa sâu sắc khi bạn hình dung một tập hợp các nha khoa như một đa tạp trong thang đo ngư nghiệp, nó cho khoảng cách đo đạc giữa hai phân phối "gần". Chính thức:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Các dòng sau đây ở đây để giải thích với các chi tiết về ý nghĩa của công thức toán học las này.

Định nghĩa của số liệu Fisher.

Hãy xem xét một họ phân phối xác suất tham số (được cho bởi mật độ trong R n ), trong đó x là một biến ngẫu nhiên và theta là một tham số trong R p . Tất cả các bạn có thể biết rằng ma trận thông tin câu cá F = ( F i j )D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

Với ký hiệu này là một đa tạp Riemannian và F ( θ ) là một tensor metric Riemann. (Sự quan tâm của số liệu này được đưa ra bởi định lý ràng buộc thấp hơn Rao)DF(θ)

Bạn có thể nói ... OK trừu tượng toán học nhưng KL ở đâu?

Đó không phải là sự trừu tượng hóa toán học, nếu bạn thực sự có thể tưởng tượng mật độ tham số của bạn là một đường cong (thay vì một tập hợp con của một không gian có kích thước vô hạn) và F 11 được kết nối với độ cong của đường cong đó ... (xem phần chính bài viết của Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1F11

Câu trả lời hình học vào một phần của điểm a / trong câu hỏi của bạn: khoảng cách bình phương giữa hai (đóng) phân phối p ( x , θ )p ( x , θ + d θ ) trên đa dạng (nghĩ về khoảng cách đo đạc trên trái đất của hai điểm gần nhau, nó liên quan đến độ cong của trái đất) được cho bởi dạng bậc hai:ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

và nó được biết đến là hai lần Phân kỳ Kullback Leibler:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Nếu bạn muốn tìm hiểu thêm về điều đó, tôi khuyên bạn nên đọc bài viết từ Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Tôi nghĩ đó cũng là một cuốn sách từ Amari hình học riemannian trong thống kê nhưng tôi không nhớ tên)


Vui lòng thêm $ xung quanh LaTeX của bạn. Bây giờ nó sẽ được hiển thị ok. Xem meta.math.stackexchange.com/questions/2/ Cách
Rob Hyndman

1
Vì tôi không phải là nhà toán học cũng không phải là nhà thống kê, tôi muốn nói lại những gì bạn đang nói để đảm bảo tôi không hiểu sai. Vì vậy, bạn đang nói rằng lấy DS ^ 2 (gấp đôi KL) sẽ có ý nghĩa tương tự như R ^ 2 (trong mô hình hồi quy) cho phân phối chung. Và rằng điều này thực sự có thể được sử dụng để định lượng khoảng cách hình học? Có phải ^ ^ 2 có một cái tên để tôi có thể đọc thêm về điều này. Có một bài báo mô tả trực tiếp số liệu này và hiển thị các ứng dụng và ví dụ?
Ampleforth

Tôi nghĩ rằng bạn không hiểu rõ vấn đề, và tôi không chắc bạn nên cố gắng đi xa hơn bây giờ. Nếu bạn có động lực, bạn có thể đọc bài báo từ Bradley Efron mà tôi đã đề cập hoặc bài báo đó từ Amari projecteuclid.org/ .
robin girard

1
Đây dường như là một đặc điểm của đạo hàm định hướng của KL chứ không phải của chính KL, và dường như không thể tách được KL ra khỏi nó vì không giống như đạo hàm, phân kỳ KL không phụ thuộc vào hình dạng của đa tạp
Yar Tư Bulatov

7

Sự phân kỳ KL (p, q) giữa các phân phối p (.) Và q (.) Có một cách giải thích lý thuyết thông tin trực quan mà bạn có thể thấy hữu ích.

Giả sử chúng ta quan sát dữ liệu x được tạo bởi một số phân phối xác suất p (.). Giới hạn dưới của bước sóng trung bình tính theo bit cần thiết để nêu dữ liệu được tạo bởi p (.) Được đưa ra bởi entropy của p (.).

Bây giờ, vì chúng tôi không biết p (.), Chúng tôi chọn phân phối khác, giả sử, q (.) Để mã hóa (hoặc mô tả, trạng thái) dữ liệu. Bước sóng trung bình của dữ liệu được tạo bởi p (.) Và được mã hóa bằng q (.) Sẽ nhất thiết phải dài hơn nếu phân phối thực p (.) Được sử dụng cho mã hóa. Phân kỳ KL cho chúng ta biết về tính không hiệu quả của mã thay thế này. Nói cách khác, sự phân kỳ giữa KL p (.) Và q (.) Là số trung bình của phụ bit cần thiết để mã hóa dữ liệu được tạo bởi p (.) Sử dụng mã hóa q phân phối (.). Phân kỳ KL không âm và bằng 0 nếu phân phối tạo dữ liệu thực tế được sử dụng để mã hóa dữ liệu.


2

Đối với phần (b) câu hỏi của bạn, bạn có thể gặp phải vấn đề là một trong những bản phân phối của bạn có mật độ trong một khu vực mà phần còn lại không có.

D(PQ)= =ΣpTôilnpTôiqTôi

Điều này phân kỳ nếu có Tôi Ở đâu pTôi>0qTôi= =0. Epsilon số trong triển khai R "cứu bạn" khỏi vấn đề này; nhưng nó có nghĩa là giá trị kết quả phụ thuộc vào tham số này (về mặt kỹ thuậtqTôi= =0 không bắt buộc, chỉ vậy thôi qTôi nhỏ hơn epsilon số).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.