Tôi muốn đề nghị bạn trước tiên nên nắm bắt tốt mô hình xác suất cơ bản trong Mạng lưới thần kinh Bayes truyền thống là gì. Sau đây, một số thuật ngữ sẽ được viết với một chữ đậm . Xin vui lòng, hãy thử googling các điều khoản để tìm thông tin chi tiết hơn. Đây chỉ là một cái nhìn tổng quan cơ bản. Tôi hy vọng nó sẽ giúp.
Chúng ta hãy xem xét trường hợp hồi quy trong các mạng nơ ron phản hồi và thiết lập một số ký hiệu.
Đặt biểu thị các giá trị của các yếu tố dự đoán ở lớp đầu vào . Các giá trị của các đơn vị trong các lớp bên trong sẽ được ký hiệu là , cho . Cuối cùng, chúng ta có lớp đầu ra .( z ( ℓ ) 1 , ... , z ( ℓ ) N ℓ ) ℓ = 1 , ... , L - 1 ( y 1 , ... , y k )( x1, Lọ , xp) = : ( z( 0 )1, ... , z( 0 )N0)( z( ℓ )1, ... , z( ℓ )Nℓ)ℓ = 1 , ... , L - 1 ( y1, ... , yk) = : ( z( L )1, ... , z( L )NL)
Các trọng và thiên vị của đơn vị ở lớp sẽ được ký hiệu bởi và , tương ứng, cho , và .ℓ w ( ℓ ) i j b ( ℓ ) i ℓ = 1 , ... , L i = 1 ... , N ℓ j = 1 , ... , N ℓ - 1Tôiℓw( ℓ )tôi jb( ℓ )Tôiℓ = 1 , ... , Li = 1 ... , Nℓj = 1 , ... , Nℓ - 1
Đặt là hàm kích hoạt cho đơn vị ở lớp , cho và . i ℓ ℓ = 1 , ... , L i = 1 ... , N ℓg( ℓ )Tôi: RNℓ - 1→ RTôiℓℓ = 1 , ... , Li = 1 ... , Nℓ
Các chức năng kích hoạt thường được sử dụng là logistic , ReLU (còn gọi là phần tích cực ) và tanh .
Bây giờ, với , xác định các hàm chuyển đổi lớp
trong đó
với .G ( ℓ ) : R N ℓ - 1 → R N ℓ : ( z ( ℓ - 1 ) 1 , ... , z ( ℓ - 1 ) N ℓ - 1 ) ↦ ( z ( ℓ ) 1 , ... , z ( ℓ ) N ℓ )ℓ = 1 , ... , L
G( ℓ ): RNℓ - 1→ RNℓ: ( z( ℓ - 1 )1, ... , z( ℓ - 1 )Nℓ - 1) ↦ ( z( ℓ )1, ... , z( ℓ )Nℓ) ,
z( ℓ )Tôi= g( ℓ )Tôi( ∑j = 1Nℓ - 1w( ℓ )tôi jz( ℓ - 1 )j+ b( ℓ )Tôi) ,
i = 1 , góc , Nℓ
Biểu thị tập hợp trọng số và độ lệch của tất cả các đơn vị trong tất cả các lớp bằng , đó là
mạng lưới thần kinh của chúng tôi là họ các hàm thu được bằng thành phần của các hàm chuyển tiếp lớp:
θ
θ = { w( ℓ )tôi j, b( ℓ )Tôi: ℓ = 1 , ... , L;i = 1 ... , Nℓ;j = 1 , ... , Nℓ - 1} ,
Gθ: Rp→ RkGθ= G( L )∘ G( L - 1 )∘ ⋯ ∘ G( 1 ).
Không có xác suất liên quan đến mô tả ở trên. Mục đích của kinh doanh mạng thần kinh ban đầu là phù hợp với chức năng .
" Sâu " trong Deep Learning là viết tắt của sự tồn tại của nhiều lớp bên trong trong các mạng lưới thần kinh đang được xem xét.
Đưa ra tập huấn luyện , chúng tôi cố gắng giảm thiểu hàm mục tiêu
trên . Đối với một số vectơ dự đoán trong tập kiểm tra , phản hồi dự đoán chỉ đơn giản là , trong đó là giải pháp tìm thấy cho vấn đề giảm thiểu. Tiêu chuẩn vàng cho việc giảm thiểu này là truyền bá ngược do thư viện TensorFlow triển khai bằng cách sử dụng các phương tiện song song có sẵn trong GPU hiện đại{ ( xTôi, yTôi) ∈ Rp× Rk: I = 1 , ... , n }
Σi = 1n∥ yTôi- Gθ(xTôi) ∥2,
θx*Gθ^( x*)θ^(Đối với các dự án của bạn, hãy xem giao diện
Keras ). Ngoài ra, hiện đã có phần cứng đóng gói các tác vụ này (
TPU ). Do mạng lưới thần kinh nói chung được tham số hóa quá mức, để tránh việc quá mức một số hình thức chính quy được thêm vào công thức, ví dụ, tóm tắt một
sườn núi như hình phạt cho hàm mục tiêu hoặc sử dụng
bỏ học trong quá trình đào tạo.
Geoffrey Hinton (còn gọi là Bố già học tập sâu) và các cộng tác viên đã phát minh ra nhiều thứ này. Câu chuyện thành công của Deep Learning có ở khắp mọi nơi.
Xác suất đã được giới thiệu trong hình vào cuối thập niên 80 và đầu thập niên 90 với đề xuất về khả năng Gaussian
và trước đó là một Gaussian đơn giản (có thể đơn giản), giả sử sự độc lập tiên nghiệm của tất cả các trọng số và thành kiến trong mạng:
Lx , y( Θ , σ2) Alpha σ- nđiểm kinh nghiệm( - 12 σ2Σi = 1n∥ yTôi- Gθ( xTôi) ∥2) ,
π( Θ , σ2) ∝ điểm kinh nghiệm( - 12 σ20Σℓ = 1LΣi = 1Nℓ( ( b( ℓ )Tôi)2+ Σj = 1Nℓ - 1( w( ℓ )tôi j)2) ) ×π( σ2) .
Do đó, các linh mục cận biên cho các trọng số và thành kiến là các phân phối bình thường với giá trị trung bình bằng 0 và phương sai chung . Mô hình chung ban đầu này có thể được thực hiện nhiều hơn nữa, với sự đánh đổi làm cho suy luận khó khăn hơn.σ20
Bayesian Deep Learning phải đối mặt với nhiệm vụ khó khăn là lấy mẫu từ phân phối sau tương ứng. Sau khi điều này được thực hiện, các dự đoán được thực hiện một cách tự nhiên với phân phối dự báo sau và các yếu tố không chắc chắn liên quan đến các dự đoán này được định lượng đầy đủ. Chén thánh trong Bayesian Deep Learning là việc xây dựng một giải pháp hiệu quả và có thể mở rộng. Nhiều phương pháp tính toán đã được sử dụng trong nhiệm vụ này: lấy mẫu của Metropolis-Hastings và Gibbs , Hamiltonian Monte Carlo , và gần đây hơn là Suy luận Biến đổi .
Xem các video hội nghị NIPS để biết một số câu chuyện thành công: http://bayesiandeeplearning.org/