Bằng chứng là các mô hình CRF và mô hình logistic là các hàm lồi


8

Tôi có thể tìm thấy bằng chứng tốt ở đâu về mô hình dựa trên CRF và mô hình dựa trên hồi quy logistic là lồi? Có một mẹo chung để kiểm tra / chứng minh rằng một mô hình hoặc hàm mục tiêu là lồi?

Câu trả lời:


7

Một mẹo nhỏ là viết lại các hàm mục tiêu theo các hàm được biết là lồi.

Hàm mục tiêu của mô hình log-linear ML được đào tạo là tổng của khả năng log âm, do đó đủ để chứng minh rằng khả năng log âm đối với mỗi datapoint là lồi.

Xem xét datapoint cố định, chúng ta có thể viết thuật ngữ khả năng log âm của nó là

θ,ϕ(y)+logyexp(θ,ϕ(y))

Thuật ngữ đầu tiên là tuyến tính vì vậy nó đủ để chỉ ra rằng thuật ngữ thứ hai, được gọi là bộ chuẩn hóa log, là lồi.

Viết nó dưới dạng trong đó và . Ở đây là hàm tuyến tính và là hàm lồi đã biết gọi là log-sum-exp. Xem trang 72 của Lồi Tối ưu hóa Boyd của cuốn sách . Thành phần của hàm lồi và hàm tuyến tính là lồi, xem phần 3.2.2f(g(θ))f(y)=logyexpygy(θ)=θ,ϕ(y)gf

Một cách tiếp cận khác là sử dụng thực tế rằng log-normalizer là hàm tạo tích lũy. Ví dụ, xem ví dụ 3,41 trong cuốn sách của Boyd, hoặc Dự luật 3.1 trong bản thảo "Các mô hình đồ họa, gia đình hàm mũ và suy luận đa dạng" của Wainwright . Điều này có nghĩa là đạo hàm thứ hai là ma trận hiệp phương sai đủ thống kê mà theo định nghĩa là bán xác định dương, có nghĩa là Hessian của bộ chuẩn hóa log là bán xác định dương. Hessian bán xác định dương đảm bảo chức năng là lồi, xem phần 3.1.4 của cuốn sách Boyd.ϕ

Về mặt kỹ thuật, bộ chuẩn hóa log không phải là hàm tạo tích lũy truyền thống. CGF là . Tuy nhiên, đạo hàm của trình chuẩn hóa log được đánh giá tại giống như đạo hàm của CGF được đánh giá tại , do đó, nó tạo ra các chất tích lũy giống như CGF.g(ϕ)=log(Z(θ+ϕ))log(Z(θ))θ0

Tôi không thể tìm thấy bằng chứng đầy đủ về sự tương đương, thường mọi người bỏ qua nó bởi vì đó chỉ là một vài bước của đại số không mệt mỏi. Một dẫn xuất rất ngắn gọn cho không gian đầu ra liên tục nằm ở trang 5 của luận án "Mô hình đồ họa" của Xinhua Zhang . Tôi tin rằng một sự xuất phát đầy đủ trong "Cơ bản của các gia đình theo cấp số nhân thống kê" của Lawrence D. Brown


2

Đầu tiên, độ lồi không chỉ là một tính năng của hàm, mà là một hàm miền mà nó được định nghĩa.

Để giải quyết câu hỏi của bạn trực tiếp hơn, một mẹo khác (chứ không phải là một công thức khác) là tính toán ma trận Hessian của hàm khả năng của bạn. Một wiki cho một hàm liên tục, hai lần khác nhau của một số biến được lồi trên tập lồi khi và chỉ khi ma trận Hessian của nó là nửa cực dương trên phần bên trong của tập lồi .

Vì Hessian là đối xứng thực sự, nó đủ để có sự thống trị đường chéo , cho nó là PSD (điều này là hiển nhiên để hiển thị cho mô hình logistic).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.