Bayesian không trả lời câu trả lời cho học sâu?


8

Theo tôi hiểu, các mạng nơ-ron sâu đang thực hiện "học đại diện" bằng cách xếp các tính năng lại với nhau. Điều này cho phép học các cấu trúc chiều rất cao trong các tính năng. Tất nhiên, đó là một mô hình tham số với số lượng tham số cố định, do đó, có một hạn chế thông thường là độ phức tạp của mô hình có thể khó điều chỉnh.

Có cách Bayesian (không tham số) để tìm hiểu các cấu trúc như vậy trong không gian tính năng, cho phép độ phức tạp của mô hình để thích ứng với dữ liệu không? Các mô hình liên quan bao gồm:

  • Dirichlet xử lý các mô hình hỗn hợp, cho phép một phân vùng không gian thành các cụm không giới hạn, cho phép dữ liệu chọn một số hữu hạn
  • các mô hình giai thừa như Quy trình tự chọn Ấn Độ (IBP), tìm thấy số lượng tính năng tiềm ẩn vô hạn (còn gọi là chủ đề) giải thích dữ liệu.

Tuy nhiên, dường như IBP không học được các đại diện sâu sắc. Ngoài ra còn có vấn đề là các phương pháp này được thiết kế cho việc học tập không giám sát và thông thường chúng ta sử dụng học sâu cho các nhiệm vụ được giám sát. Có một biến thể của IBP hoặc các phương pháp khác cho phép các đại diện phát triển theo nhu cầu dữ liệu không?


Tôi thực sự không biết nếu mạng lưới thần kinh sâu được tính là một mô hình tham số.
Skander H.

Câu trả lời:


6

Như các câu trả lời khác lưu ý, một sự thay thế Bayes không tham số phổ biến cho các mạng thần kinh là Quá trình Gaussian . (Xem thêm tại đây ).

Tuy nhiên, kết nối chạy sâu hơn nhiều. Hãy xem xét lớp các mô hình được gọi là Mạng thần kinh Bayes (BNN). Mô hình như vậy cũng giống như các mạng thần kinh sâu thường xuyên trừ rằng mỗi trọng lượng / tham số trong mạng có một phân bố xác suất mô tả giá trị của nó . Một mạng lưới thần kinh bình thường sau đó giống như một trường hợp đặc biệt của BNN, ngoại trừ phân phối xác suất trên mỗi trọng lượng là một Dirac Delta.

Một sự thật thú vị là mạng lưới thần kinh Bayes rộng vô hạn trở thành Quá trình Gaussian trong một số điều kiện hợp lý.

Luận án của Neal, Bayesian Learning for Neural Networks (1995) cho thấy điều này trong trường hợp mạng một lớp có IID trước. Công việc gần đây hơn (xem Lee et al, Deep Neural Networks là Gaussian Processes , 2018 ) mở rộng điều này đến các mạng sâu hơn.

Vì vậy, có lẽ bạn có thể coi BNN lớn là xấp xỉ của mô hình quy trình Gaussian không tham số.

Đối với câu hỏi của bạn nói chung hơn, mọi người thường chỉ cần ánh xạ trong học tập có giám sát, có vẻ như phi thông số Bayes không phổ biến cho (ít nhất là bây giờ), chủ yếu là vì lý do tính toán (áp dụng tương tự cho BNNs, ngay cả với những tiến bộ gần đây trong suy luận đa dạng). Tuy nhiên, trong học tập không giám sát, chúng xuất hiện thường xuyên hơn. Ví dụ:


2

Hừm, tôi không chắc, nhưng có lẽ các quá trình gaussian sâu có thể là một ví dụ về những gì bạn đang tìm kiếm?

Các quy trình Gaussian sâu

Ngoài ra còn có nhiều công trình gần đây về các quá trình gaussian sâu về học giả, nhưng tôi không đủ kiến ​​thức để nói với bạn những gì sẽ tốt để đọc:

https://scholar.google.de/scholar?as_ylo=2016&q=deep+gaussian+ Processes & hl = de & as_sdt = 0,09 & as_vis = 1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.