Liệu khả năng đăng nhập trong GLM có đảm bảo sự hội tụ đến cực đại toàn cầu không?


16

Câu hỏi của tôi là:

  1. Các mô hình tuyến tính tổng quát (GLM) có được đảm bảo hội tụ đến mức tối đa toàn cầu không? Nếu vậy, tại sao?
  2. Hơn nữa, có những ràng buộc nào trên hàm liên kết để đảm bảo độ lồi?

Sự hiểu biết của tôi về GLM là chúng tối đa hóa chức năng khả năng phi tuyến cao. Vì vậy, tôi sẽ tưởng tượng rằng có một số cực đại cục bộ và bộ tham số bạn hội tụ phụ thuộc vào các điều kiện ban đầu cho thuật toán tối ưu hóa. Tuy nhiên, sau khi thực hiện một số nghiên cứu tôi đã không tìm thấy một nguồn nào chỉ ra rằng có nhiều cực đại cục bộ. Hơn nữa, tôi không quá quen thuộc với các kỹ thuật tối ưu hóa, nhưng tôi biết phương pháp Newton-Raphson và thuật toán IRLS rất dễ bị cực đại cục bộ.

Hãy giải thích nếu có thể cả trên cơ sở trực quan và toán học!

EDIT: dksahuji đã trả lời câu hỏi ban đầu của tôi, nhưng tôi muốn thêm câu hỏi tiếp theo [ 2 ] ở trên. ("Có những ràng buộc nào đối với chức năng liên kết để đảm bảo độ lồi?")


Tôi nghĩ rằng một số hạn chế phải được yêu cầu trước khi có thể được như vậy. Nguồn cho tuyên bố là gì?
Glen_b -Reinstate Monica

Một số trang web dường như ngụ ý nó tuy nhiên tôi không thể tìm thấy bất cứ điều gì đề cập đến nó hoàn toàn, vì vậy tôi cũng hoan nghênh sự không chắc chắn của nó!
DankMasterDan

miễn là khả năng được xác định rõ ở mọi nơi trên miền (và bỏ qua một số vấn đề số tiếp tuyến) tôi nghĩ là có. Trong những điều kiện đó, hessian <0 ở mọi nơi trên miền, do đó, sự giống nhau là lõm toàn cầu. Btw, hàm không 'phi tuyến tính cao' trong các tham số và đó là điều quan trọng.
user603

@ user603 Nguồn / bằng chứng của bạn cho thấy hessian <0 ở mọi nơi là gì?
DankMasterDan

Hồi quy logistic, Poisson và Gaussian thường lồi với hàm liên kết "tốt". Tuy nhiên, với chức năng liên kết tùy ý, chúng không lồi.
Ghi nhớ

Câu trả lời:


11

Định nghĩa của gia đình hàm mũ là:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

Trong đó là hàm phân vùng log. Bây giờ người ta có thể chứng minh rằng ba điều sau đây dành cho trường hợp 1D (và chúng tổng quát hóa cho các kích thước cao hơn - bạn có thể xem xét các thuộc tính của các họ theo hàm mũ hoặc phân vùng nhật ký):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

Kết quả trên chứng minh rằng A(θ) là lồi (vì là semidefinite dương). Bây giờ chúng ta hãy xem chức năng khả năng cho MLE: cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

Bây giờ là tuyến tính trong theta và - A ( θ ) là lõm. Do đó, có một tối đa toàn cầu duy nhất.θT[ϕ(D)]A(θ)

Có một phiên bản tổng quát gọi là gia đình hàm mũ cong cũng tương tự. Nhưng hầu hết các bằng chứng đều ở dạng chính tắc.


Vì vậy, điều này có nghĩa là GLM có một danh nghĩa tối thiểu toàn cầu duy nhất mà chức năng liên kết được chọn (bao gồm cả các hàm phi núi)?
DankMasterDan

1
p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ .
dksahuji

Lưu ý rằng câu hỏi hỏi về sự hội tụ, thay vì chỉ tồn tại, nhưng với một vài hạn chế, điều đó cũng có thể thực hiện được.
Glen_b -Reinstate Monica

@Glen_b Bạn có thể giải thích? Tôi không biết bất kỳ hạn chế như vậy. Có thể một cái gì đó giống như các hạn chế về stepize trong trình tối ưu hóa dựa trên độ dốc để hội tụ bò tót trong trường hợp hàm lõm.
dksahuji

1
@Glen_b Điều đó có thể đúng nói chung nhưng tôi không thể thấy bất kỳ lý do nào cho chức năng lõm để không hội tụ đến tối ưu trong giá trị chấp nhận được nhỏ. Nhưng tôi sẽ nói rằng tôi không có bất kỳ kinh nghiệm thực tế nào với những điều này và tôi mới bắt đầu. :)
dksahuji
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.