Toán học mô hình mạng thần kinh như mô hình đồ họa


11

Tôi đang vật lộn để tạo ra kết nối toán học giữa một mạng thần kinh và một mô hình đồ họa.

Trong các mô hình đồ họa, ý tưởng rất đơn giản: phân phối xác suất nhân tố theo các nhóm trong biểu đồ, với các tiềm năng thường là của gia đình hàm mũ.

Có một lý do tương đương cho một mạng lưới thần kinh? Người ta có thể biểu thị phân phối xác suất trên các đơn vị (biến) trong máy Boltzmann bị hạn chế hoặc CNN như là một hàm của năng lượng của chúng, hoặc sản phẩm của năng lượng giữa các đơn vị?

Ngoài ra, phân phối xác suất được mô hình hóa bởi mạng RBM hoặc Deep niềm tin (ví dụ với CNN) của gia đình hàm mũ?

Tôi hy vọng tìm thấy một văn bản chính thức hóa kết nối giữa các loại mạng thần kinh và thống kê hiện đại này giống như cách mà Jordan & Wainwright đã làm cho các mô hình đồ họa với Mô hình đồ họa, Gia đình hàm mũ và Suy luận biến đổi . Mọi gợi ý đều tuyệt.


1
IM (người ghét) Vấn đề cốt lõi ở đây là mạng lưới thần kinh không thực sự là mạng; họ thực tế có một cấu trúc liên kết cố định và do đó có một cơ hội nhỏ để lưu trữ bất kỳ thông tin nào bên trong nó.

Bạn đã thấy bài viết gần đây ?
jerad

@jerad Cảm ơn, tôi đã không đọc bài viết đó. Câu hỏi của tôi không phải là quá nhiều về cách kết hợp các mô hình này (ví dụ như khi Yann nói "using deep nets as factors in an MRF"), mà nhiều hơn về cách xem mạng sâu như một biểu đồ nhân tố xác suất. Khi Yann LeCun nói "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", tôi thích nhìn thấy sự kết nối đó một cách toán học.
Amelio Vazquez-Reina

@mbq, chúng tôi đã thấy một số hình thức lưu trữ thông tin thành phần lớp ẩn, ví dụ https://distill.pub/2017/feature-visualization/( Cách mạng lưới thần kinh xây dựng sự hiểu biết về hình ảnh của chúng ), trong đó một hình ảnh phức tạp có các đối tượng thành phần được biểu thị bằng các nút lớp ẩn. Các trọng số có thể "thay đổi" cấu trúc liên kết "theo cách không rời rạc. Mặc dù tôi chưa thấy nó, một số phương pháp có thể bao gồm các yếu tố co rút để loại bỏ các cạnh và do đó thay đổi cấu trúc liên kết ban đầu
Vass

Câu trả lời:


6

Một giới thiệu tốt khác về chủ đề này là khóa học CSC321 tại Đại học Toronto, và khóa học thần kinh-2012-001 về Coursera, cả hai đều do Geoffrey Hinton giảng dạy.

Từ video trên Belief Nets:

Mô hình đồ họa

Các mô hình đồ họa ban đầu đã sử dụng các chuyên gia để xác định cấu trúc đồ thị và xác suất có điều kiện. Các biểu đồ được kết nối thưa thớt, và trọng tâm là thực hiện suy luận chính xác, và không phải học tập (kiến thức đến từ các chuyên gia).

Mạng lưới thần kinh

Đối với mạng lưới thần kinh, học tập là trung tâm. Kiến thức cứng không tốt (OK, có thể một chút). Học tập đến từ việc học dữ liệu đào tạo, không phải từ các chuyên gia. Mạng lưới thần kinh không nhằm mục đích giải thích kết nối thưa thớt để làm cho suy luận dễ dàng. Tuy nhiên, có các phiên bản mạng lưới thần kinh của lưới niềm tin.


Sự hiểu biết của tôi là lưới niềm tin thường được kết nối quá dày đặc, và các cụm của chúng quá lớn, không thể giải thích được. Lưới niềm tin sử dụng chức năng sigmoid để tích hợp các đầu vào, trong khi các mô hình đồ họa liên tục thường sử dụng chức năng Gaussian. Sigmoid làm cho mạng dễ huấn luyện hơn, nhưng khó diễn giải hơn về mặt xác suất. Tôi tin rằng cả hai đều trong gia đình theo cấp số nhân.

Tôi xa một chuyên gia về điều này, nhưng các ghi chú bài giảng và video là một tài nguyên tuyệt vời.


1
Chào mừng đến với trang web. Chúng tôi đang cố gắng xây dựng một kho lưu trữ thông tin thống kê chất lượng cao vĩnh viễn dưới dạng câu hỏi và câu trả lời. Vì vậy, chúng tôi cảnh giác với các câu trả lời chỉ liên kết, do linkrot. Bạn có thể đăng một trích dẫn đầy đủ và một bản tóm tắt các thông tin tại liên kết, trong trường hợp nó bị chết?
gung - Phục hồi Monica

Điều này thực sự tốt đẹp. Cảm ơn bạn đã thêm thông tin này và chào mừng bạn đến CV.
gung - Phục hồi Monica

Tôi phải chỉ ra rằng thông tin trong nửa đầu câu trả lời của bạn không hoàn toàn chính xác, mà tôi đoán được ngụ ý bởi việc sử dụng "các mô hình đồ họa ban đầu" (nên là "rất rất sớm"). Trong một thời gian rất dài, các mô hình đồ họa đã được sử dụng để tìm hiểu tất cả các khía cạnh của kiến ​​trúc của nó giống như các mạng thần kinh. Nhưng đề nghị sau này của bạn về sigmoids thay thế gaussian trong đồ thị nhân tố thật thú vị!
GuSuku

4

Radford Neal đã thực hiện một công việc tốt trong lĩnh vực này có thể khiến bạn quan tâm, bao gồm một số công việc trực tiếp trong việc đánh đồng các mô hình đồ họa Bayes với các mạng lưới thần kinh. (Luận án của ông rõ ràng về chủ đề cụ thể này.)

Tôi không đủ quen thuộc với công việc này để cung cấp một bản tóm tắt thông minh, nhưng tôi muốn đưa cho bạn con trỏ trong trường hợp bạn thấy nó hữu ích.


Từ những gì tôi hiểu được từ các tác phẩm của Neal, Mackay , v.v., họ đang sử dụng Tối ưu hóa Bayes trong đó các tham số để tối ưu hóa là các trọng số và sai lệch thần kinh, thậm chí sẽ cho thấy rằng việc chuẩn hóa L2 của các mạng thần kinh có thể được xem là một Gaussian trước trọng lượng. Chương trình đó đã được tiếp tục bao gồm số lớp ẩn, nơ ron trong mỗi lớp, v.v. trong số các biến tối ưu hóa.
GuSuku

Nhưng điều này khác với những gì OP yêu cầu bởi vì thiết kế kiến ​​trúc của mạng nơ-ron để thử trong lần chạy tiếp theo chỉ là một trường hợp đặc biệt của thiết kế thử nghiệm sử dụng các mô hình Bayesian như một công cụ siêu thiết kế. Tôi nghĩ những gì OP yêu cầu là một ánh xạ giữa mạng lưới thần kinh và mô hình bayes, ở "cùng cấp độ".
GuSuku

4

Đây có thể là một chủ đề cũ, nhưng vẫn là một câu hỏi có liên quan.

Ví dụ nổi bật nhất về các kết nối giữa Mạng thần kinh (NN) và Mô hình đồ họa xác suất (PGM) là mối quan hệ giữa Boltzmann Machines (và các biến thể của nó như Restricted BM, Deep BM, v.v.) và PGM của Trường ngẫu nhiên Markov.

Tương tự, Belief Networks (và các biến thể của nó như Deep BN, v.v.) là một loại PGM được định hướng của đồ thị Bayes

Để biết thêm, xem:

  1. Yann Lecun, " Hướng dẫn về học tập dựa trên năng lượng " (2006)
  2. Yoshua Bengio, Ian Goodfellow và Aaron Courville, "Deep Learning", Ch 16 & 20 (cuốn sách đang chuẩn bị, tại thời điểm viết bài này)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.