Học sâu Bayes là gì?


13

Bayesian Deep Learning là gì và nó liên quan đến thống kê Bayes truyền thống và Deep Learning truyền thống như thế nào?

Các khái niệm chính và toán học liên quan là gì? Tôi có thể nói đó chỉ là số liệu thống kê bayes không tham số không? Các công trình tinh của nó cũng như các phát triển và ứng dụng chính hiện tại của nó là gì?

PS: Bayesian Deep Learning đang được chú ý rất nhiều, xem hội thảo NIPS.

Câu trả lời:


10

Thoát khỏi liên kết hội thảo NIPS của bạn, Yee Whye Teh đã có bài phát biểu quan trọng tại NIPS trên Bayesian Deep Learning (video: https://www.youtube.com/watch?v=LVBvJsTr3rg , slide: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-enameiman-lecture/). Tôi nghĩ tại một số thời điểm trong cuộc nói chuyện, Teh đã tóm tắt việc học sâu của Bayes khi áp dụng khung Bayes cho các ý tưởng từ học sâu (như học một hậu thế qua các trọng số của mạng lưới thần kinh) và học sâu Bayes như áp dụng các ý tưởng từ học sâu vào Khung Bayes (như các quá trình Gaussian sâu hoặc các họ hàm mũ sâu). Tất nhiên có những ý tưởng nằm giữa ranh giới giữa hai khái niệm, như bộ tự động biến đổi. Khi hầu hết mọi người nói Bayesian học sâu, họ thường có nghĩa là một trong hai, và điều đó được phản ánh trong các giấy tờ được chấp nhận tại hội thảo mà bạn liên kết (cùng với hội thảo năm trước). Trong khi các ý tưởng quay trở lại với công việc của Neal về việc học Bayes về mạng lưới thần kinh trong những năm 90 (http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.446.9306&rep=rep1&type=pdf ), và có nhiều công việc quan trọng gần đây sẽ là một trong những bài báo quan trọng gần đây sẽ là giấy tự động mã hóa đa dạng gốc ( https://arxiv.org/pdf/1312.6114.pdf ).


10

Tôi muốn đề nghị bạn trước tiên nên nắm bắt tốt mô hình xác suất cơ bản trong Mạng lưới thần kinh Bayes truyền thống là gì. Sau đây, một số thuật ngữ sẽ được viết với một chữ đậm . Xin vui lòng, hãy thử googling các điều khoản để tìm thông tin chi tiết hơn. Đây chỉ là một cái nhìn tổng quan cơ bản. Tôi hy vọng nó sẽ giúp.

Chúng ta hãy xem xét trường hợp hồi quy trong các mạng nơ ron phản hồi và thiết lập một số ký hiệu.

Đặt biểu thị các giá trị của các yếu tố dự đoán ở lớp đầu vào . Các giá trị của các đơn vị trong các lớp bên trong sẽ được ký hiệu là , cho . Cuối cùng, chúng ta có lớp đầu ra .( z ( ) 1 , ... , z ( ) N )= 1 , ... , L - 1 ( y 1 , ... , y k )(x1,Giáo dục,xp)=:(z1(0),Giáo dục,zN0(0))(z1(),Giáo dục,zN())= =1,Giáo dục,L-1 (y1,Giáo dục,yk)=:(z1(L),Giáo dục,zNL(L))

Các trọngthiên vị của đơn vị ở lớp sẽ được ký hiệu bởi và , tương ứng, cho , và .w ( ) i j b ( ) i= 1 , ... , L i = 1 ... , N j = 1 , ... , N - 1TôiwTôij()bTôi()= =1,Giáo dục,LTôi= =1Giáo dục,Nj= =1,Giáo dục,N-1

Đặt là hàm kích hoạt cho đơn vị ở lớp , cho và . i = 1 , ... , L i = 1 ... , N gTôi():RN-1RTôi= =1,Giáo dục,LTôi= =1Giáo dục,N

Các chức năng kích hoạt thường được sử dụng là logistic , ReLU (còn gọi là phần tích cực ) và tanh .

Bây giờ, với , xác định các hàm chuyển đổi lớp trong đó với .G ( ) : R N - 1R N : ( z ( - 1 ) 1 , ... , z ( - 1 ) N - 1 )( z ( ) 1 , ... , z ( ) N )= =1,Giáo dục,L

G():RN-1RN:(z1(-1),Giáo dục,zN-1(-1))(z1(),Giáo dục,zN()),
zTôi()= =gTôi()(Σj= =1N-1wTôij()zj(-1)+bTôi()),
Tôi= =1,Giáo dục,N

Biểu thị tập hợp trọng số và độ lệch của tất cả các đơn vị trong tất cả các lớp bằng , đó là mạng lưới thần kinh của chúng tôi là họ các hàm thu được bằng thành phần của các hàm chuyển tiếp lớp: θ

θ= ={wTôij(),bTôi():= =1,Giáo dục,L;Tôi= =1Giáo dục,N;j= =1,Giáo dục,N-1},
Gθ:RpRk
Gθ= =G(L)G(L-1)G(1).

Không có xác suất liên quan đến mô tả ở trên. Mục đích của kinh doanh mạng thần kinh ban đầu là phù hợp với chức năng .

" Sâu " trong Deep Learning là viết tắt của sự tồn tại của nhiều lớp bên trong trong các mạng lưới thần kinh đang được xem xét.

Đưa ra tập huấn luyện , chúng tôi cố gắng giảm thiểu hàm mục tiêu trên . Đối với một số vectơ dự đoán trong tập kiểm tra , phản hồi dự đoán chỉ đơn giản là , trong đó là giải pháp tìm thấy cho vấn đề giảm thiểu. Tiêu chuẩn vàng cho việc giảm thiểu này là truyền bá ngược do thư viện TensorFlow triển khai bằng cách sử dụng các phương tiện song song có sẵn trong GPU hiện đại{(xTôi,yTôi)Rp×Rk:Tôi= =1,Giáo dục,n}

ΣTôi= =1nyTôi-Gθ(xTôi)2,
θx*Gθ^(x*)θ^(Đối với các dự án của bạn, hãy xem giao diện Keras ). Ngoài ra, hiện đã có phần cứng đóng gói các tác vụ này ( TPU ). Do mạng lưới thần kinh nói chung được tham số hóa quá mức, để tránh việc quá mức một số hình thức chính quy được thêm vào công thức, ví dụ, tóm tắt một sườn núi như hình phạt cho hàm mục tiêu hoặc sử dụng bỏ học trong quá trình đào tạo. Geoffrey Hinton (còn gọi là Bố già học tập sâu) và các cộng tác viên đã phát minh ra nhiều thứ này. Câu chuyện thành công của Deep Learning có ở khắp mọi nơi.

Xác suất đã được giới thiệu trong hình vào cuối thập niên 80 và đầu thập niên 90 với đề xuất về khả năng Gaussian và trước đó là một Gaussian đơn giản (có thể đơn giản), giả sử sự độc lập tiên nghiệm của tất cả các trọng số và thành kiến ​​trong mạng:

Lx,y(θ,σ2)ασ-nđiểm kinh nghiệm(-12σ2ΣTôi= =1nyTôi-Gθ(xTôi)2),
π(θ,σ2)αđiểm kinh nghiệm(-12σ02Σ= =1LΣTôi= =1N((bTôi())2+Σj= =1N-1(wTôij())2))×π(σ2).

Do đó, các linh mục cận biên cho các trọng số và thành kiến ​​là các phân phối bình thường với giá trị trung bình bằng 0 và phương sai chung . Mô hình chung ban đầu này có thể được thực hiện nhiều hơn nữa, với sự đánh đổi làm cho suy luận khó khăn hơn.σ02

Bayesian Deep Learning phải đối mặt với nhiệm vụ khó khăn là lấy mẫu từ phân phối sau tương ứng. Sau khi điều này được thực hiện, các dự đoán được thực hiện một cách tự nhiên với phân phối dự báo sau và các yếu tố không chắc chắn liên quan đến các dự đoán này được định lượng đầy đủ. Chén thánh trong Bayesian Deep Learning là việc xây dựng một giải pháp hiệu quả và có thể mở rộng. Nhiều phương pháp tính toán đã được sử dụng trong nhiệm vụ này: lấy mẫu của Metropolis-HastingsGibbs , Hamiltonian Monte Carlo , và gần đây hơn là Suy luận Biến đổi .

Xem các video hội nghị NIPS để biết một số câu chuyện thành công: http://bayesiandeeplearning.org/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.