Bối cảnh: Tôi đang học chương 6 của Deep Learning của Ian Goodfellow và Yoshua Bengio và Aaron Courville. Trong phần 6.2.2.2 (trang 182 trên 183 có thể xem tại đây ) việc sử dụng sigmoid để xuất được thúc đẩy.
Để tóm tắt một số tài liệu họ cho là nơ ron đầu ra trước khi kích hoạt được áp dụng trong đó h là đầu ra của lớp ẩn trước đó, w là vectơ của trọng số và b là độ lệch vô hướng. Các vector đầu vào được ký hiệu x (trong đó h là một hàm của) và giá trị sản lượng được ký hiệu y = φ ( z ) nơi φ là hàm sigmoid. Cuốn sách muốn xác định phân phối xác suất trên y bằng cách sử dụng giá trị z
Hiện tại, chúng tôi bỏ qua sự phụ thuộc vào để thảo luận về cách định nghĩa phân phối xác suất trên y bằng giá trị z . Sigmoid có thể được thúc đẩy bằng cách xây dựng phân phối xác suất không chuẩn hóa ˜ P ( y ) , không tổng bằng 1. Sau đó chúng ta có thể chia cho một hằng số thích hợp để có được phân phối xác suất hợp lệ. Nếu chúng ta bắt đầu với giả định rằng xác suất nhật ký không chuẩn hóa là tuyến tính theo y và z , chúng ta có thể lũy thừa để có được xác suất không chuẩn hóa. Chúng tôi sau đó bình thường hóa để thấy rằng sản lượng này một bản phân phối Bernoulli điều khiển bởi một chuyển đổi sigma của z: đăng nhập ~
Câu hỏi: Tôi bối rối về hai điều, đặc biệt là điều đầu tiên:
- Giả định ban đầu đến từ đâu? Tại sao xác suất log không chuẩn hóa tuyến tính trong và z ? Ai đó có thể cho tôi một số inituition về cách các tác giả bắt đầu với log ~ P ( y ) = y z ?
- Làm thế nào để dòng cuối cùng theo sau?