Trong bài viết năm 2015 của DeepMind về học tập củng cố sâu, đã nói rằng "Những nỗ lực trước đây để kết hợp RL với các mạng thần kinh đã thất bại phần lớn do học tập không ổn định". Bài báo sau đó liệt kê một số nguyên nhân của điều này, dựa trên mối tương quan qua các quan sát.
Xin vui lòng ai đó có thể giải thích điều này có nghĩa là gì? Đây có phải là một hình thức của quá mức, trong đó mạng lưới thần kinh học một số cấu trúc có mặt trong đào tạo, nhưng có thể không có mặt trong thử nghiệm? Hay nó có nghĩa gì khác?
Có thể tìm thấy bài báo: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Và phần tôi đang cố gắng hiểu là:
Học tăng cường được biết là không ổn định hoặc thậm chí phân kỳ khi một hàm xấp xỉ hàm phi tuyến như mạng nơ ron được sử dụng để biểu diễn hàm giá trị hành động (còn gọi là Q). Sự không ổn định này có một số nguyên nhân: các mối tương quan có trong chuỗi các quan sát, thực tế là các cập nhật nhỏ cho Q có thể thay đổi đáng kể chính sách và do đó thay đổi phân phối dữ liệu và tương quan giữa các giá trị hành động và giá trị đích.
Chúng tôi giải quyết những bất ổn này bằng một biến thể mới của Q-learning, sử dụng hai ý chính. Đầu tiên, chúng tôi sử dụng một cơ chế lấy cảm hứng từ sinh học gọi là phát lại kinh nghiệm ngẫu nhiên hóa dữ liệu, từ đó loại bỏ các mối tương quan trong chuỗi quan sát và làm mịn các thay đổi trong phân phối dữ liệu. Thứ hai, chúng tôi đã sử dụng một bản cập nhật lặp để điều chỉnh các giá trị hành động (Q) đối với các giá trị đích chỉ được cập nhật định kỳ, do đó làm giảm mối tương quan với mục tiêu.