Làm cách nào để chọn số lớp ẩn và số ô nhớ trong LSTM?

28

Tôi đang cố gắng tìm một số nghiên cứu hiện có về cách chọn số lượng các lớp ẩn và kích thước của các lớp RNN dựa trên LSTM.

Có một bài báo mà vấn đề này đang được nghiên cứu, tức là, nên sử dụng bao nhiêu ô nhớ? Tôi giả sử nó hoàn toàn phụ thuộc vào ứng dụng và trong bối cảnh nào mô hình đang được sử dụng, nhưng nghiên cứu nói gì?

— Stephen Johnson
nguồn

15

Câu hỏi của bạn khá rộng, nhưng đây là một số mẹo:

Đối với các mạng feedforward, xem câu hỏi này :

@ doug 'câu trả lời đã làm việc cho tôi. Có một quy tắc bổ sung giúp giải quyết các vấn đề học tập có giám sát. Giới hạn trên của số lượng tế bào thần kinh ẩn sẽ không dẫn đến sự phù hợp quá mức là:

$N_{h} = \frac{N_{s}}{(α * (N_{i} + N_{o}))}$ $N_h = \frac{N_s} {(\alpha * (N_i + N_o))}$

$N_i$ $N_o$ $N_s$ $\alpha$
$alpha$ $N_s * (N_i + N_o)$ $\alpha$

Đối với quy trình tự động, bạn bắt đầu với hệ số alpha là 2 (gấp đôi mức độ tự do trong dữ liệu đào tạo của bạn so với mô hình của bạn) và làm việc theo cách của bạn lên đến 10 nếu lỗi cho dữ liệu đào tạo nhỏ hơn đáng kể so với xác thực chéo tập dữ liệu.

Và đặc biệt trên LSTM, bạn có thể muốn kiểm tra điều này .

Nhưng điểm chính: không có quy tắc nào cho số lượng nút ẩn bạn nên sử dụng, đó là điều bạn phải tìm ra cho từng trường hợp bằng cách dùng thử và lỗi .

— Thomas W
nguồn

7

Chọn số lượng lớp ẩn và số lượng ô nhớ trong LSTM luôn phụ thuộc vào miền ứng dụng và ngữ cảnh nơi bạn muốn áp dụng LSTM này.

Đối với các lớp ẩn. Việc giới thiệu (các) lớp ẩn giúp mạng có thể thể hiện hành vi phi tuyến tính.

Số lượng đơn vị ẩn tối ưu có thể dễ dàng nhỏ hơn số lượng đầu vào, không có quy tắc nào như nhân số lượng đầu vào với N ... Nếu bạn có nhiều ví dụ đào tạo, bạn có thể sử dụng nhiều đơn vị ẩn, nhưng đôi khi chỉ cần 2 đơn vị ẩn hoạt động tốt nhất với ít dữ liệu. Thông thường mọi người sử dụng một lớp ẩn cho các nhiệm vụ đơn giản, nhưng ngày nay nghiên cứu về kiến trúc mạng thần kinh sâu cho thấy nhiều lớp ẩn có thể mang lại kết quả cho đối tượng khó khăn, nhân vật viết tay và nhận diện khuôn mặt.

I assume it totally depends on the application and in which context the model is being used.

— Ligade Maheshwar
nguồn

5

Phi tuyến tính là do sử dụng các hàm kích hoạt phi tuyến tính. Số lượng các lớp chỉ làm tăng tính biểu cảm của NN. Bạn nên sửa câu trả lời này. Sự kết hợp của các hàm tuyến tính vẫn là các hàm tuyến tính (vì vậy, nếu bạn có nhiều lớp chỉ thực hiện kết hợp tuyến tính của các đầu vào, thì sự kết hợp của các lớp này vẫn sẽ là tuyến tính).

— nbro

4

Nói chung, không có hướng dẫn về cách xác định số lượng lớp hoặc số lượng ô nhớ trong LSTM.

Số lượng lớp và ô cần thiết trong một LSTM có thể phụ thuộc vào một số khía cạnh của vấn đề:

Sự phức tạp của bộ dữ liệu. Số lượng tính năng, số lượng điểm dữ liệu, vv
Quá trình tạo dữ liệu. Ví dụ sau về cách quá trình tạo dữ liệu có thể đóng một phần quan trọng.

Ex - Dự đoán giá dầu so với dự đoán GDP của một nền kinh tế được hiểu rõ. Cái sau dễ hơn cái trước. Do đó, dự đoán giá dầu cũng có thể cần số lượng tế bào bộ nhớ LSTM nhiều hơn để dự đoán với độ chính xác tương đương so với GDP.

Độ chính xác cần thiết cho trường hợp sử dụng. Số lượng ô nhớ sẽ phụ thuộc nhiều vào điều này. Nếu mục tiêu là đánh bại các công nghệ tiên tiến - người ta cần nhiều tế bào LSTM nói chung. So sánh điều đó với mục tiêu đưa ra các dự đoán hợp lý - sẽ cần số lượng tế bào LSTM ít hơn.

Tôi làm theo các bước sau khi lập mô hình bằng LSTM:

Hãy thử một lớp ẩn duy nhất với 2 hoặc 3 ô nhớ. Xem cách nó thực hiện so với điểm chuẩn. Nếu đó là một vấn đề về chuỗi thời gian thì tôi thường đưa ra dự báo từ các kỹ thuật chuỗi thời gian cổ điển làm điểm chuẩn.
Hãy thử và tăng số lượng ô nhớ. Nếu hiệu suất không tăng nhiều thì chuyển sang bước tiếp theo.
Bắt đầu làm cho mạng sâu, tức là thêm một lớp khác với một số lượng nhỏ các ô nhớ.

Qua một bên :

Không có giới hạn về số lượng lao động có thể được dành để đạt đến mức tối thiểu toàn cầu của hàm mất mát và điều chỉnh các tham số siêu tốt nhất. Vì vậy, tập trung vào mục tiêu cuối cùng cho mô hình hóa nên là chiến lược thay vì cố gắng tăng độ chính xác càng nhiều càng tốt.

Hầu hết các vấn đề có thể được xử lý bằng cách sử dụng 2-3 lớp của mạng.

— ngây thơ
nguồn

2

Có lẽ bạn nên xem cái này: https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/ListenTerm1201415/sak2.pdf

Ở đây họ cho thấy 2 lớp rất đẹp, 5 lớp tốt hơn và 7 lớp rất khó đào tạo.

— Chết đi
nguồn