Độ dốc của khả năng đăng nhập Gaussian đa biến


8

Tôi đang cố gắng tìm ước tính MAP cho một mô hình theo độ dốc. Ưu tiên của tôi là Gaussian đa biến với ma trận hiệp phương sai đã biết.

Ở mức độ khái niệm, tôi nghĩ rằng tôi biết làm thế nào để làm điều này, nhưng tôi đã hy vọng được giúp đỡ với các chi tiết. Đặc biệt, nếu có một cách dễ dàng hơn để tiếp cận vấn đề, thì điều đó sẽ đặc biệt hữu ích.

Đây là những gì tôi nghĩ rằng tôi cần phải làm:

  • Đối với mỗi thứ nguyên, hãy tìm phân phối có điều kiện, với vị trí hiện tại của tôi trong các thứ nguyên khác.
  • Điều này mang lại cho tôi một Gaussian đơn biến cục bộ theo từng chiều, với giá trị trung bình và độ lệch chuẩn chính xác.
  • Tôi nghĩ rằng gradient chỉ nên là một vectơ dẫn xuất cho mỗi phân phối đơn biến này.

Câu hỏi của tôi có hai phần:

  1. Đây có phải là cách tiếp cận tốt nhất để thực hiện, hoặc có một cách dễ dàng hơn?
  2. Giả sử tôi cần đi theo con đường này, cách tốt nhất để tìm kiếm các bản phân phối có điều kiện này là gì?

Có bất kỳ lý do tại sao bạn muốn làm điều này với độ dốc giảm dần? Tìm MAP của một MVN với một số âm thanh trước đây giống như một vấn đề được nghiên cứu khá kỹ. Vì MVN là tự liên hợp, nên một cách tiếp cận Bayes hoàn toàn có thể thậm chí có thể.
bayerj

@bayerj Câu hỏi hay. Ưu tiên là MVN, nhưng khả năng là không. Tôi nghĩ rằng giới hạn các lựa chọn của tôi.
David J. Harris

À, tôi không hiểu điều đó.
bayerj

Câu trả lời:


8

Còn tối ưu hóa thì sao?

Hãy xem tôi hiểu bạn có đúng không. Bạn có một mô hình dựa trên một số quan sát và một bộ tham số và trước đó dẫn đến khả năng chung là . Các tham số được phân phối theo một thông thường đa biến đã biết, tức là . Bạn muốn tìm giải pháp MAP cho vấn đề này, tức là Một trường hợp đặc biệt của vấn đề này được nghiên cứu kỹ trong cộng đồng mạng thần kinh, được gọi là giảm cân. Trong trường hợp đó, và .p(y|x,θ)xθp(θ)L=p(y|x,θ)p(θ)θN(μ,Σ)

argmaxθL.
μ=0Σ=Iσ2

Như bạn đã lưu ý, mẹo là . Khi bạn lấy nhật ký của mật độ Gaussian, nhiều thuật ngữ xấu (hàm mũ) sẽ biến mất và bạn sẽ kết thúc với sth như . Nếu bạn phân biệt điều đó, danh tính ma trận của Sam Roweis sẽ có ích và cho phép bạn đếnargmaxθL=argmaxθlogLlogp(θ)=12(θμ)TΣ1(θμ)+const

12(θμ)TΣ1(θμ)θ=Σ1(θμ).

(Vui lòng xác minh, việc này đã được thực hiện nhanh chóng và trong đầu tôi.) Cùng với các dẫn xuất của mô hình của bạn, bạn có thể sử dụng các trình tối ưu hóa sẵn có để đưa ra giải pháp MAP.

Cập nhật : Nhận xét kết hợp của David J. Harris. Công thức nên được chính xác ngay bây giờ.


(+1) Điều này trông giống như chính xác những gì tôi cần. Tôi sẽ làm một chút xác minh vào chiều nay và sau đó tôi sẽ đánh dấu chọn "chấp nhận" nếu mọi thứ đều ổn. Cảm ơn bạn!
David J. Harris

Tôi quên thêm: nếu mô hình của bạn đơn giản (nghĩa là tuyến tính trong các tham số), việc đánh giá đạo hàm của khả năng đăng nhập bằng 0 và giải quyết cho thậm chí có thể giải quyết được . θ
bayerj

Tôi đã chơi xung quanh với điều này một chút về số lượng và tôi nghĩ rằng nó bị giảm đi bởi hệ số 2 nhưng ngược lại thì đúng. Có lẽ nó hủy bỏ với từ công thức cho mật độ thông thường đa biến? Cảm ơn một lần nữa! 1/2
David J. Harris

Đó nên là nó, vâng. Tôi đã quên điều đó!
bayerj

1
Cần lưu ý rằng một Gaussian đa biến tùy chỉnh trước (với ma trận hiệp phương sai không chéo) xác định chính quy Tikhonov
Artem Sobolev

0

Nếu khả năng không phải là Gaussian thì không thể nói nếu có kết quả phân tích. Ngoài ra, viên đạn thứ hai nói chung là không chính xác. Vì khả năng Gaussian trước và chung không tạo ra các phân phối gaussian có điều kiện trên các thành phần vector.

Một cách để có được MAP sẽ là thực hiện phân tích Bayes đầy đủ, ví dụ như sử dụng MCMC và sử dụng các mẫu từ phía sau để ước tính nó. [Trong trường hợp nào bạn có sẵn thông tin tốt hơn là chỉ sử dụng MAP.] Không quan tâm - tại sao không đi xuống tuyến đường này bằng mọi cách?

Một cách tiếp cận khác có thể làm (Tôi thường không thấy điều này được thực hiện vì vậy ai đó vui lòng sửa cho tôi nếu nó bị hỏng):

p(θ|x)=p(x|θ)p(θ)p(x)

l(θ|x)=l(x|θ)+l(θ)l(x)

dl(θ|x)dθ=dl(x|θ)dθ+dl(θ)dθ=0

Sau đó giải quyết cho (có thể là số).θ


Cảm ơn vì đầu vào của bạn. Tôi có thể không rõ ràng: ngay bây giờ, tôi chỉ muốn tìm độ dốc cho trước. Độ dốc của log-posterior chỉ là độ dốc của khả năng ghi nhật ký cộng với độ dốc của log-trước, vì vậy việc tìm hai gradient này riêng biệt sẽ ổn.
David J. Harris

1
Ehm, đề xuất của bạn để giải quyết cho bằng số là ... cách tiếp cận cơ bản. Làm thế nào khác là một người được cho là để tối ưu hóa chức năng đích mà không tìm thấy một gốc của một gradient? θ
Artem Sobolev
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.