Hàm softmax, thường được sử dụng trong các mạng thần kinh để chuyển đổi số thực thành xác suất, có chức năng tương tự như phân phối Boltzmann, phân phối xác suất trên các năng lượng để tạo ra các hạt ở trạng thái cân bằng nhiệt ở nhiệt độ T nhất định trong nhiệt động lực học.
Tôi có thể thấy một số lý do heuristic rõ ràng tại sao điều này là thực tế:
- Không có vấn đề nếu giá trị đầu vào là âm, softmax xuất giá trị dương tổng thành một.
- Nó luôn luôn khác biệt, thuận tiện cho việc truyền bá.
- Nó có tham số 'nhiệt độ' kiểm soát mức độ khoan hồng của mạng đối với các giá trị nhỏ (khi T rất lớn, tất cả các kết quả đều có khả năng như nhau, khi rất nhỏ, chỉ chọn giá trị có đầu vào lớn nhất).
Là chức năng Boltzmann chỉ được sử dụng như softmax vì lý do thực tế, hoặc có một kết nối sâu hơn với nhiệt động lực học / vật lý thống kê?