Tôi đang lập mô hình 15000 tweet để dự đoán tình cảm bằng cách sử dụng LSTM một lớp với 128 đơn vị ẩn bằng cách sử dụng biểu diễn giống như word2vec với 80 thứ nguyên. Tôi nhận được độ chính xác gốc (38% với ngẫu nhiên = 20%) sau 1 epoch. Đào tạo nhiều hơn làm cho độ chính xác xác nhận bắt đầu giảm khi độ chính xác đào tạo bắt đầu tăng lên - một dấu hiệu rõ ràng của việc quá mức.
Do đó, tôi đang nghĩ cách để thực hiện chính quy. Tôi không muốn giảm số lượng các đơn vị ẩn (128 có vẻ hơi thấp). Tôi hiện đang sử dụng bỏ học với xác suất 50%, nhưng điều này có lẽ có thể tăng lên. Trình tối ưu hóa là Adam với các tham số mặc định cho Keras ( http://keras.io/optimulators/#adam ).
Một số cách hiệu quả để giảm quá mức cho mô hình này trên tập dữ liệu của tôi là gì?