Tôi biết đây là một bài viết muộn, nhưng tôi cảm thấy như vẫn còn một số giá trị trong việc cung cấp một số biện minh cho những người xảy ra hạ cánh ở đây.
Bạn không hoàn toàn sai. Nó tùy tiện ở một mức độ nhất định, nhưng có lẽ tùy ý là từ sai. Nó giống như một sự lựa chọn thiết kế. Hãy để tôi giải thích.
Hóa ra Softmax thực sự là sự khái quát hóa của hàm Sigmoid, là đơn vị đầu ra Bernoulli (đầu ra 0 hoặc 1):
[ 1 + điểm kinh nghiệm ( - z) ]- 1
Nhưng chức năng Sigmoid đến từ đâu, bạn có thể hỏi.
Chà, hóa ra là nhiều phân phối xác suất khác nhau bao gồm Bernoulli, phân phối Poisson, Gaussian, v.v ... theo một thứ gọi là Mô hình tuyến tính tổng quát (GLM). Đó là, chúng có thể được thể hiện dưới dạng:
P( y; η) = b ( y) exp [ ηTT( y) - một ( η) ]
Tôi sẽ không bao gồm tất cả các tham số này là gì, nhưng bạn chắc chắn có thể nghiên cứu điều này.
Quan sát ví dụ sau về cách phân phối Bernoulli trong gia đình GLM:
P( y= 1 ) = φP( y= 0 ) = 1 - φP( y) = ϕy( 1 - φ )1 - y= exp ( ylog ( ϕ ) + ( 1 - y) Log ( 1 - φ ) )= exp ( ylog ( ϕ ) + log ( 1 - ϕ ) - ylog ( 1 - φ ) )= exp ( ynhật ký ( ϕ1 - φ) + Log ( 1 - φ ) )
Bạn có thể thấy rằng trong trường hợp này,
b ( y) = 1T( y) = yη= log ( ϕ1 - φ)một ( η) = - log ( 1 - φ )
Lưu ý những gì xảy ra khi chúng tôi giải quyết cho về :φη
η= log ( ϕ1 - φ)eη= ϕ1 - φe- η= 1 - φφ= 1φ- 1e- η+ 1 = 1φφ = [ exp ( - η) + 1 ]- 1
Vì vậy, để có được , chúng ta lấy sigmoid của . Lựa chọn thiết kế xuất hiện khi chúng tôi giả sử rằng , trong đó là trọng số của bạn và là dữ liệu của bạn, cả hai đều giả sử là . Bằng cách đưa ra giả định này, chúng ta có thể điều chỉnh gần đúng .φ = P( y= 1 )ηη= wTxwx∈Rnwϕ
Nếu bạn đã trải qua quá trình tương tự để phân phối Multinoulli, cuối cùng bạn sẽ nhận được hàm softmax.