- Điều này có đúng không?
Có sơ đồ cả hai nhìn chính xác với tôi. Điều quan trọng để hiểu cả hai sơ đồ là đầu vào và đầu ra của một tế bào LSTM là các vectơ.
Các vòng tròn trong sơ đồ đầu tiên thể hiện khái niệm rằng lớp chứa nhiều nơ-ron nhân tạo riêng lẻ và điều đó có thể khiến bạn cho rằng sơ đồ thứ hai là hình ảnh của một trong những nơ-ron đó. Có thể cho rằng có nhiều "nơ-ron" hoặc các lớp con với các vai trò khác nhau trong một ô, bởi vì có nhiều vị trí trong đó các phép tính có dạng xảy ra, thực hiện các vai trò hơi khác nhau. Tôi nghĩ thuật ngữ "tế bào" được sử dụng để chỉ kiến trúc của các tế bào thần kinh. Là một tay ngắn khi tôi nói "nơ-ron", tôi có xu hướng nghĩ về giai đoạn đầu ra của lớp ẩn.f(Wx+b)
Tuy nhiên, trong sơ đồ thứ hai, tất cả các hoạt động được hiển thị đều hoạt động với các vectơ. Quan trọng nhất là các mũi tên từ trái sang phải trong sơ đồ thứ hai biểu thị các vectơ trạng thái ẩn từ dấu thời gian đến dấu thời gian từ toàn bộ lớp . Vì vậy, mỗi tế bào thần kinh trong tế bào được kết nối lại với mọi tế bào thần kinh khác trong tế bào đó - gấp đôi so với khi xảy ra trong một LSTM, bởi vì các LSTM có cả trạng thái tế bào bên trong và đầu ra lớp.
- Là mỗi đơn vị trong các tế bào độc lập với các đơn vị khác? Hay họ chia sẻ thông tin?
Để khớp với mô tả sơ đồ của bạn, hãy xác định "đơn vị" là tập hợp của một trong mỗi loại nơ-ron / cổng được sử dụng để tạo ra tế bào, theo lý thuyết có thể được nối với nhau để tạo ra một lớp tế bào LSTM hoạt động với một lớp duy nhất trạng thái tế bào vô hướng và giá trị đầu ra.
Các đơn vị này độc lập ở chỗ mỗi đơn vị có các thông số trọng lượng riêng. Không có tham số chia sẻ nào cho các kết nối giữa đầu vào và các đơn vị hoặc cho các kết nối đệ quy chuyển trạng thái từ bước này sang bước tiếp theo. Theo nghĩa đó, các đơn vị không chia sẻ thông tin.
Tuy nhiên, các kết nối có nghĩa là trên mỗi bước thời gian, dữ liệu đầu vào và trạng thái ẩn cộng với đầu ra từ đầu ra cuối cùng từ tất cả các đơn vị khác trong ô được kết hợp được sử dụng trong tính toán. Bất kỳ đơn vị ô nào cũng có thể dựa trên trạng thái bên trong mới cộng với đầu ra của nó dựa trên các giá trị của tất cả các đầu ra khác và trạng thái bên trong từ các đơn vị khác trong ô. Theo nghĩa này, các đơn vị chia sẻ thông tin. Tôi đoán từ câu hỏi của bạn rằng có lẽ đây là vấn đề thứ hai mà bạn quan tâm, vì sơ đồ thứ hai khiến bạn nghĩ về sơ đồ nối dây cho một nơron, nhưng như đã giải thích ở trên thì không phải vậy.
- Hãy tưởng tượng tôi có cấu hình sau: Số mẫu = 1000 Số bước thời gian = 10 Số tính năng = 5 Trong trường hợp này, mỗi đơn vị trong một ô sẽ lấy một vectơ kích thước 5 phải không?
Hầu hết. Mỗi nơ-ron bên trong ô sẽ lấy đầu vào là 5 từ , cộng với đầu vào của đầu ra lớp ẩn, . Vì vậy, nếu trong trường hợp của bạn, kích thước ô LSTM là 10, thì mỗi nơ ron sẽ lấy một vectơ kết hợp là 15. Ngoài ra, một vectơ trạng thái ô thứ hai được duy trì, không được dán nhãn trong sơ đồ của bạn. Điều đó không được sử dụng trực tiếp làm đầu vào cho bất kỳ tế bào thần kinh nào (tức là các thành phần có dạng ), nhưng không tương tác với các giá trị khác và có thể tự thay đổi, thông qua các cổng khác nhau. Trong sơ đồ thứ hai của bạn, nó là mũi tên trên cùng đi từ trái sang phải.xhf(Wx+b)
Nhưng kích thước của đầu ra cho một đơn vị sẽ là bao nhiêu? 1?
Toàn bộ tế bào sẽ có đầu ra với bất kỳ kích thước nào bạn đã tạo ra lớp. Đó là những gì sơ đồ số 2 cố gắng thể hiện. Tuy nhiên, bằng cách sử dụng định nghĩa làm việc của chúng tôi về "đơn vị", đầu ra của mỗi đơn vị sẽ là hai giá trị vô hướng - đầu ra của lớp ẩn và trạng thái ô - sẽ là một phần của các vectơ tương ứng được hiển thị trong sơ đồ.