Làm thế nào sâu là kết nối giữa chức năng softmax trong ML và phân phối Boltzmann trong nhiệt động lực học?

12

Hàm softmax, thường được sử dụng trong các mạng thần kinh để chuyển đổi số thực thành xác suất, có chức năng tương tự như phân phối Boltzmann, phân phối xác suất trên các năng lượng để tạo ra các hạt ở trạng thái cân bằng nhiệt ở nhiệt độ T nhất định trong nhiệt động lực học.

Tôi có thể thấy một số lý do heuristic rõ ràng tại sao điều này là thực tế:

Không có vấn đề nếu giá trị đầu vào là âm, softmax xuất giá trị dương tổng thành một.
Nó luôn luôn khác biệt, thuận tiện cho việc truyền bá.
Nó có tham số 'nhiệt độ' kiểm soát mức độ khoan hồng của mạng đối với các giá trị nhỏ (khi T rất lớn, tất cả các kết quả đều có khả năng như nhau, khi rất nhỏ, chỉ chọn giá trị có đầu vào lớn nhất).

Là chức năng Boltzmann chỉ được sử dụng như softmax vì lý do thực tế, hoặc có một kết nối sâu hơn với nhiệt động lực học / vật lý thống kê?

machine-learning neural-networks softmax

— ahura
nguồn

1

Tôi không hiểu tại sao điều này lại thu hút được nhiều phiếu bầu - đó là một câu hỏi hoàn toàn hợp lý.

— Matt Krause

2

+1 cho @ MattKrause, NN NN chắc chắn thuộc chủ đề, cũng như tôi nghĩ là vật lý thống kê.

— Sean Easter

Tôi có thể thấy câu hỏi 'cởi mở' hơn hầu hết các câu hỏi SO như thế nào, theo nghĩa là tôi không tìm kiếm giải pháp cho một vấn đề, nhưng kiến thức tổng quát hơn. Tuy nhiên, tôi không thể nghĩ ra một nơi tốt hơn để hỏi nó hoặc một cách cụ thể hơn để hỏi nó.

— ahura

3

Theo hiểu biết của tôi, không có lý do sâu xa hơn, ngoài thực tế là rất nhiều người đã đưa ANN vượt ra ngoài giai đoạn Perceptron là các nhà vật lý.

Ngoài những lợi ích được đề cập, sự lựa chọn đặc biệt này có nhiều lợi thế hơn. Như đã đề cập, nó có một tham số duy nhất xác định hành vi đầu ra. Mà lần lượt có thể được tối ưu hóa hoặc điều chỉnh trong chính nó.

Nói tóm lại, đây là một chức năng rất tiện dụng và nổi tiếng, đạt được một loại 'chính quy hóa', theo nghĩa là ngay cả các giá trị đầu vào lớn nhất cũng bị hạn chế.

Tất nhiên có nhiều chức năng có thể khác đáp ứng các yêu cầu tương tự, nhưng chúng ít được biết đến trong thế giới vật lý. Và hầu hết thời gian, chúng khó sử dụng hơn.

— chubub
nguồn

2

hàm softmax cũng được sử dụng trong mô hình lựa chọn rời rạc, giống như mô hình logit, nếu bạn giả sử có một hàm tiện ích được liên kết với mỗi lớp và hàm tiện ích bằng với đầu ra của mạng nơ ron + một thuật ngữ lỗi sau Gumbel phân phối, xác suất thuộc về một lớp bằng với hàm softmax với mạng thần kinh là đầu vào. Xem: https : //eml.ber siêu.edu / revprint / mcfadden / tsembka.pdf

có các lựa chọn thay thế cho mô hình logit, chẳng hạn như mô hình probit, trong đó thuật ngữ lỗi được giả định là tuân theo phân phối chuẩn thông thường, đó là một giả định tốt hơn. tuy nhiên, khả năng sẽ là khó khăn và tốn kém về mặt tính toán để giải quyết, do đó không được sử dụng phổ biến trong mạng lưới thần kinh

— John
nguồn