Gần đây tôi đã trở nên quan tâm đến các LSTM và tôi đã rất ngạc nhiên khi biết rằng các trọng số được chia sẻ theo thời gian.
Tôi biết rằng nếu bạn chia sẻ các trọng số theo thời gian, thì chuỗi thời gian đầu vào của bạn có thể là một độ dài thay đổi.
Với trọng lượng được chia sẻ, bạn có ít thông số hơn để đào tạo.
Theo hiểu biết của tôi, lý do người ta sẽ chuyển sang LSTM so với một số phương pháp học tập khác là vì bạn tin rằng có một loại cấu trúc / sự phụ thuộc theo thời gian / tuần tự trong dữ liệu của bạn mà bạn muốn tìm hiểu. Nếu bạn hy sinh độ dài thay đổi 'sang trọng' và chấp nhận thời gian tính toán dài, thì RNN / LSTM không có trọng số chung (nghĩa là cứ mỗi bước bạn có trọng lượng khác nhau) sẽ hoạt động tốt hơn hay tôi thiếu thứ gì?