Theo như tôi biết, sự biện minh cho việc khởi tạo thiên vị softmax là một chút gợn sóng. Nhớ lại hồi quy softmax là ước tính khả năng (log) tối đa cho , với mô hình là:
Với khởi tạo thiên vị, ý định của chúng tôi là tìm một giá trị tốt mà bắt đầu cao. Theo giả định rằng chúng tôi khởi tạoW,bbp(x,y|W,b)∝p(y|W,b,x)Wy[K]Wx≈0logp(y|W,b,x)=K ∑ k=11y=kđăng nhậpσk
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wvới các giá trị gần 0 nhỏ và là nhãn trong , nên:
Thêm xác suất đăng nhập cho tất cả các ví dụ độc lập giả định , một khởi tạo tốt cho sẽ giảm thiểu tổng khả năng nhật ký dữ liệu gần đúng:
Độ dốc của wrt trên là , với
y[K]Wx≈0{ ( x i , y i ) } n i = 1 b n ∑ i = 1 log σ y i ( b ) = n ∑ i = 1 b y i - n log K ∑ k = 1 exp b k bđăng nhậpp ( y| W, B , x ) = Σk = 1K1y= kđăng nhậpσk( Wx + b )≈nhật kýσy( b )
{ ( xTôi, yTôi) }ni = 1bΣi = 1nđăng nhậpσyTôi( B ) = Σi = 1nbyTôi- n đăng nhậpΣk = 1Kđiểm kinh nghiệmbk
b c ∈ N Kc -nσ( b )c∈NKvectơ đếm của mỗi lớp. Các chức năng trên cũng là lõm,
xem câu hỏi ở đây về mịn max để chứng minh.
Hai sự thật ở trên ngụ ý tối đa có sẵn bất cứ khi nào . Đến lượt nó, điều này cho thấy một khởi tạo khả thi cho thuật ngữ thứ của bias thực sự là , tỷ lệ của các ví dụ -labelling trong tập huấn luyện (còn gọi là thống kê cận biên). Bạn có thể thấy rằng bạn có thể thêm bất kỳ hằng số nào vào và cũng đạt được khả năng tối đa hóa khả năng khác; Tuy nhiên, quy mô lớn sẽ nhận được trong suốt quá trình học . Mối quan hệ với xu hướng logistic không phải là ngẫu nhiên --- hướng dẫn này thảo luận về sự giống nhau.i b i b log p i i b Wσ(b)=c/nibiblogpiibW