Một trong những siêu âm cho mạng LSTM là nhiệt độ. Nó là gì?

machine-learning neural-networks

— Justin Shenk
nguồn

Nhiệt độ là một siêu tham số của các LSTM (và các mạng thần kinh nói chung) được sử dụng để kiểm soát tính ngẫu nhiên của các dự đoán bằng cách chia tỷ lệ các bản ghi trước khi áp dụng softmax. Ví dụ, trong triển khai LSTM của TensorFlow's Magenta , nhiệt độ biểu thị mức độ phân chia các bản ghi trước khi tính toán softmax.

Khi nhiệt độ là 1, chúng tôi tính toán softmax trực tiếp trên các bản ghi (đầu ra không được tính của các lớp trước đó) và sử dụng nhiệt độ 0,6, mô hình sẽ tính toán softmax trên , dẫn đến một giá trị lớn hơn. Việc thực hiện softmax trên các giá trị lớn hơn làm cho LSTMtự tin hơn(cần ít đầu vào hơn để kích hoạt lớp đầu ra) nhưng cũngthận trọng hơntrong các mẫu của nó (ít có khả năng lấy mẫu từ các ứng cử viên không chắc chắn). Việc sử dụng nhiệt độ cao hơn sẽ tạo ra phân phối xác suất mềm hơn cho các lớp và làm cho RNN dễ dàng bị kích thích hơn bởi các mẫu, dẫn đếnsự đa dạng hơnvà cũng cónhiều sai lầm hơn. $\frac{logits}{0.6}$

Mạng thần kinh tạo ra xác suất lớp với logit vector nơi bằng cách thực hiện các chức năng softmax để sản vector khả bằng cách so sánh với với logits khác . $\mathbf{z}$ $\mathbf{z} =$ $(z_1,\ldots,z_n)$ $\mathbf{q} = (q_1,\ldots,q_n)$ $z_i$

$q_i = \frac{\exp{(z_i/T)}}{\sum_j\exp{(z_j/T)}}\tag{1}$

Trong đó là tham số nhiệt độ, thường được đặt thành 1. $T$

Hàm softmax bình thường hóa các ứng cử viên ở mỗi lần lặp của mạng dựa trên các giá trị theo cấp số nhân của họ bằng cách đảm bảo các đầu ra của mạng đều nằm trong khoảng từ 0 đến 1 tại mỗi dấu thời gian.

Nhiệt độ do đó làm tăng độ nhạy cảm với các ứng cử viên có xác suất thấp. Trong các LSTM, ứng cử viên hoặc mẫu, có thể là một chữ cái, một từ hoặc ghi chú âm nhạc, ví dụ:

Đối với nhiệt độ cao ( ), tất cả [mẫu] có xác suất gần như nhau và nhiệt độ càng thấp, phần thưởng được mong đợi càng ảnh hưởng đến xác suất. Đối với nhiệt độ thấp ( ), xác suất của [mẫu] có phần thưởng dự kiến cao nhất có xu hướng là 1. $\tau \to \infty$ $\tau \to 0^{+}$

- từ bài viết Wikipedia về chức năng softmax

Tài liệu tham khảo

Hinton, Geoffrey, Oriol Vinyals và Jeff Dean. "Chắt lọc kiến thức trong một mạng lưới thần kinh." bản in sẵn arXiv arXiv: 1503.02531 (2015). arXiv

— Justin Shenk
nguồn

Đó là sự ám chỉ đến phân phối Boltzmann (hay phân phối Gibbs) - một phân phối xác suất được sử dụng trong cơ học thống kê.

— mc2

Nhiệt độ trong LSTM (và mạng lưới thần kinh nói chung) là gì?

Tài liệu tham khảo