Tạo động lực cho các đơn vị sản lượng sigmoid trong các mạng thần kinh bắt đầu với xác suất log unnormalized tuyến tính trong


12

Bối cảnh: Tôi đang học chương 6 của Deep Learning của Ian Goodfellow và Yoshua Bengio và Aaron Courville. Trong phần 6.2.2.2 (trang 182 trên 183 có thể xem tại đây ) việc sử dụng sigmoid để xuất được thúc đẩy.P(y=1|x)

Để tóm tắt một số tài liệu họ cho là nơ ron đầu ra trước khi kích hoạt được áp dụng trong đó h là đầu ra của lớp ẩn trước đó, w là vectơ của trọng số và b là độ lệch vô hướng. Các vector đầu vào được ký hiệu x (trong đó h là một hàm của) và giá trị sản lượng được ký hiệu y = φ ( z ) nơi φ là hàm sigmoid. Cuốn sách muốn xác định phân phối xác suất trên y bằng cách sử dụng giá trị z

z=wTh+b
hwbxhy=ϕ(z)ϕyz. Từ đoạn thứ hai của trang 183:

Hiện tại, chúng tôi bỏ qua sự phụ thuộc vào để thảo luận về cách định nghĩa phân phối xác suất trên y bằng giá trị z . Sigmoid có thể được thúc đẩy bằng cách xây dựng phân phối xác suất không chuẩn hóa ˜ P ( y ) , không tổng bằng 1. Sau đó chúng ta có thể chia cho một hằng số thích hợp để có được phân phối xác suất hợp lệ. Nếu chúng ta bắt đầu với giả định rằng xác suất nhật ký không chuẩn hóa là tuyến tính theo yz , chúng ta có thể lũy thừa để có được xác suất không chuẩn hóa. Chúng tôi sau đó bình thường hóa để thấy rằng sản lượng này một bản phân phối Bernoulli điều khiển bởi một chuyển đổi sigma của z: đăng nhập ~xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Câu hỏi: Tôi bối rối về hai điều, đặc biệt là điều đầu tiên:

  1. Giả định ban đầu đến từ đâu? Tại sao xác suất log không chuẩn hóa tuyến tính trong z ? Ai đó có thể cho tôi một số inituition về cách các tác giả bắt đầu với log ~ P ( y ) = y z ?yzlogP~(y)=yz
  2. Làm thế nào để dòng cuối cùng theo sau?

Câu trả lời:


8

Có hai kết quả có thể xảy ra cho . Điều này rất quan trọng, bởi vì tính chất này thay đổi ý nghĩa của phép nhân. Có hai trường hợp có thể xảy ra:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Ngoài ra, điều quan trọng cần lưu ý là xác suất logarit không chuẩn hóa cho là không đổi. Tài sản này xuất phát từ giả định chính. Áp dụng bất kỳ hàm xác định nào cho giá trị không đổi sẽ tạo ra đầu ra không đổi. Thuộc tính này sẽ đơn giản hóa công thức cuối cùng khi chúng ta thực hiện chuẩn hóa trên tất cả các xác suất có thể, bởi vì chúng ta chỉ cần biết xác suất không chuẩn hóa cho y = 1 và với y = 0, nó luôn luôn không đổi. Và vì đầu ra từ mạng trong xác suất logarit không chuẩn hóa, chúng tôi sẽ chỉ yêu cầu một đầu ra, bởi vì một đầu ra khác là không đổi.y=0y=1y=0

Tiếp theo, chúng tôi đang áp dụng lũy ​​thừa cho xác suất logarit không chuẩn hóa để có được xác suất không chuẩn hóa.

P~(y=1)=ezP~(y=0)=e0=1

Tiếp theo, chúng ta chỉ bình thường hóa xác suất chia cho mỗi xác suất không chuẩn hóa bằng tổng tất cả các xác suất không chuẩn hóa có thể có.

P(y=1)=ez1+ezP(y=0)=11+ez

P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

σP(y)


y=0y=1

y=1

y×zyzay+bz+clogyz

Tôi hiểu rồi, đó thực sự là một câu hỏi thú vị. Tôi đã không chú ý đến câu nói này khi tôi đọc câu hỏi lần đầu tiên. Bây giờ nó có vẻ kỳ lạ với tôi là tốt. Một vấn đề là biến nhị phân y và tôi không chắc cách kiểm tra các thuộc tính của hàm tuyến tính trong các trường hợp này. Tôi đoán nó sẽ có ý nghĩa nếu bạn đặt câu hỏi riêng biệt, có lẽ ai đó có thể giải thích cho bạn tại sao nó được viết theo cách này.
itdxer

2

Tôi cũng thấy đoạn này của cuốn sách đầy thách thức để theo dõi, và câu trả lời trên của itdxer xứng đáng có một thời gian để hiểu cũng như cho một người không rành về xác suất và tư duy toán học. Tuy nhiên, tôi đã thực hiện nó bằng cách đọc câu trả lời ngược, vì vậy hãy bắt đầu với sigmoid của z

P(y=1)=ez1+ez=11+ez

và cố gắng theo dõi trở lại.

logP~(y)=yz

Sau đó, có lý do tại sao họ bắt đầu giải thích với yz - đó là do thiết kế, giống như cuối cùng

σ((2y1)z)

bằng cách xây dựng cho phép lấy -1 cho y = 0 và 1 cho y = 1, đây là các giá trị duy nhất có thể có của y theo Bernoulli.


0

Đây là một cụm từ chính thức hơn sẽ thu hút những người có nền tảng lý thuyết đo lường.

YPYy{0,1}PY(y)=P(Y=y)P~Y

Chúng tôi có chuỗi ý nghĩa sau đây:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

{0,1}{1,1}

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.