Trong tài liệu học máy, để biểu diễn phân phối xác suất, hàm softmax thường được sử dụng. Có một lý do cho điều này? Tại sao chức năng khác không được sử dụng?
Trong tài liệu học máy, để biểu diễn phân phối xác suất, hàm softmax thường được sử dụng. Có một lý do cho điều này? Tại sao chức năng khác không được sử dụng?
Câu trả lời:
Từ góc độ tối ưu hóa, nó có một số tính chất tốt về sự khác biệt. Đối với nhiều vấn đề về máy học, nó phù hợp để phân loại 1-N.
Từ góc độ học tập sâu: Người ta cũng có thể lập luận rằng về mặt lý thuyết, sử dụng mạng sâu với phân loại softmax trên đầu có thể biểu thị bất kỳ hàm xác suất lớp N nào trên không gian tính năng vì MLP có thuộc tính xấp xỉ phổ .
Softmax cũng là một khái quát của hàm sigmoid logistic và do đó, nó mang các thuộc tính của sigmoid như dễ phân biệt và nằm trong phạm vi 0-1. Đầu ra của hàm sigmoid logistic cũng nằm trong khoảng từ 0 đến 1 và do đó, đương nhiên là một lựa chọn phù hợp để biểu diễn xác suất. Đạo hàm của nó cũng bị cắt xén về sản lượng của chính nó. Tuy nhiên, nếu hàm của bạn có đầu ra vectơ, bạn cần sử dụng hàm Softmax để có được phân phối xác suất trên vectơ đầu ra. Có một số lợi thế khác của việc sử dụng Softmax mà Indie AI đã đề cập, mặc dù nó không nhất thiết phải liên quan đến lý thuyết xấp xỉ phổ quát vì Softmax không phải là chức năng chỉ được sử dụng cho Mạng thần kinh.
Người giới thiệu