Công thức LSTM-LM là gì?


8

Tôi đang đọc bài viết này "Trình tự học theo trình tự với các mạng thần kinh" http: // vá.nips.cc/apers/5346- resultence-to-resultence-learning-with-neural-networks.pdf

Trong "2. Mô hình" có ghi:

LSTM tính toán xác suất có điều kiện này bằng cách trước tiên lấy đại diện chiều cố định v của chuỗi đầu vào (x1, .., XT) được đưa ra bởi trạng thái ẩn cuối cùng của LSTM, sau đó tính xác suất của y1 ,. . . , yT với công thức LSTM-LM tiêu chuẩn có trạng thái ẩn ban đầu được đặt thành đại diện v của x1 ,. . . , xT:

Tôi biết LSTM là gì, nhưng LSTM-LM là gì? Tôi đã thử Googling nó nhưng không thể tìm thấy bất kỳ khách hàng tiềm năng tốt.


Nhưng câu này vẫn còn gây hoang mang cho tôi. nếu tôi đặt nó vào phương trình if make ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) với c trạng thái ẩn cuối cùng của bộ mã hóa. sau đó trạng thái ẩn đầu tiên biểu thị thông tin được cung cấp bởi bộ mã hóa nhưng trạng thái tiếp theo biểu thị phân phối xác suất của các phần tử của chuỗi mục tiêu: một cái gì đó có bản chất hoàn toàn khác. Ngoài ra, việc khởi tạo trạng thái tế bào không được đưa ra và hình 1 hãy tin rằng LSTM provid
Charles Englebert

Câu trả lời:


10

Định nghĩa của Mô hình Ngôn ngữ (LM) là phân phối xác suất theo chuỗi các từ.

Hình minh họa đơn giản của LM là dự đoán từ tiếp theo được đưa ra (các) từ trước đó.

Ví dụ: nếu tôi có một mô hình ngôn ngữ và một số từ ban đầu:

  • Tôi đặt từ ban đầu là My
  • Mô hình của tôi dự đoán có một xác suất cao namexuất hiện sau đó My.
  • Bằng cách đặt các từ ban đầu thành My name, mô hình của tôi dự đoán có khả năng cao isxuất hiện sau đó My name.
  • Vì vậy, nó giống như: My-> My name-> My name is-> My name is Tom, v.v.

Bạn có thể nghĩ về tự động hoàn thành trên bàn phím điện thoại thông minh của bạn. Trong thực tế, LM là trái tim của tự động hoàn thành.

Vì vậy, LSTM-LM chỉ đơn giản là sử dụng LSTM (và chức năng softmax) để dự đoán từ tiếp theo cho các từ trước đó của bạn.

Nhân tiện, Mô hình ngôn ngữ không giới hạn ở LSTM, các RNN khác (GRU) hoặc các mô hình có cấu trúc khác. Trên thực tế, bạn cũng có thể sử dụng các mạng feedforward với cửa sổ ngữ cảnh / trượt / cuộn để dự đoán từ tiếp theo cho các từ ban đầu của bạn.


Điều đó có làm thay đổi công thức của chính LSTM theo bất kỳ cách nào không?
Taevanbat Mongol

Hay nó thay đổi cách các LSTM được liên kết với nhau?
Taevanbat Mongol

1
IMHO, có lẽ nó có nghĩa là một LSTM được điều chỉnh cho LM (Mô hình hóa ngôn ngữ). Tôi đang đọc cùng một tờ giấy và đó là sự hiểu biết của tôi
Ali

@TaevanbatMongol không, không thay đổi công thức LSTM. Bạn chỉ cần một hàm softmax (hoặc một cái gì đó) để tạo xác suất của các từ từ đầu ra LSTM
rilut

Xác suất của các từ có nghĩa là nếu bạn tính tổng xác suất / điểm của đầu ra của dấu thời gian, nó sẽ bằng 1
rilut

1

Trong ngữ cảnh này, tôi nghĩ rằng điều đó có nghĩa là bạn lấy biểu diễn đầu ra và tìm hiểu một lớp softmax bổ sung tương ứng với các mã thông báo trong mô hình ngôn ngữ của bạn (trong trường hợp này là các chữ cái).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.