Tại sao softmax được sử dụng để đại diện cho phân phối xác suất?


10

Trong tài liệu học máy, để biểu diễn phân phối xác suất, hàm softmax thường được sử dụng. Có một lý do cho điều này? Tại sao chức năng khác không được sử dụng?

Câu trả lời:


7

Từ góc độ tối ưu hóa, nó có một số tính chất tốt về sự khác biệt. Đối với nhiều vấn đề về máy học, nó phù hợp để phân loại 1-N.

Từ góc độ học tập sâu: Người ta cũng có thể lập luận rằng về mặt lý thuyết, sử dụng mạng sâu với phân loại softmax trên đầu có thể biểu thị bất kỳ hàm xác suất lớp N nào trên không gian tính năng vì MLP có thuộc tính xấp xỉ phổ .


1
Vì vậy, lý do chính cho sự phổ biến của Softmax là các thuộc tính khác biệt rất hữu ích trong cài đặt học tập Dựa trên Gradient. Đó là nó, phải không?
SHASHANK GUPTA

Yeap, theo ý kiến ​​của tôi nào. Softmax là một đơn giản với các dẫn xuất đẹp và hấp dẫn cho học tập dựa trên độ dốc. Đồng ý với mọi thứ bạn nói.
Indie AI

Bạn có thể nghĩ softmax là hàm xác suất / mật độ xác suất của hàm bạn sẽ tối ưu hóa. Theo tôi, softmax chỉ là một cách thuận tiện để mô hình hóa hàm khối lượng / mật độ xác suất.
Charles Chow

3

Softmax cũng là một khái quát của hàm sigmoid logistic và do đó, nó mang các thuộc tính của sigmoid như dễ phân biệt và nằm trong phạm vi 0-1. Đầu ra của hàm sigmoid logistic cũng nằm trong khoảng từ 0 đến 1 và do đó, đương nhiên là một lựa chọn phù hợp để biểu diễn xác suất. Đạo hàm của nó cũng bị cắt xén về sản lượng của chính nó. Tuy nhiên, nếu hàm của bạn có đầu ra vectơ, bạn cần sử dụng hàm Softmax để có được phân phối xác suất trên vectơ đầu ra. Có một số lợi thế khác của việc sử dụng Softmax mà Indie AI đã đề cập, mặc dù nó không nhất thiết phải liên quan đến lý thuyết xấp xỉ phổ quát vì Softmax không phải là chức năng chỉ được sử dụng cho Mạng thần kinh.

Người giới thiệu

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.