Tại sao học tập củng cố sâu không ổn định?


13

Trong bài viết năm 2015 của DeepMind về học tập củng cố sâu, đã nói rằng "Những nỗ lực trước đây để kết hợp RL với các mạng thần kinh đã thất bại phần lớn do học tập không ổn định". Bài báo sau đó liệt kê một số nguyên nhân của điều này, dựa trên mối tương quan qua các quan sát.

Xin vui lòng ai đó có thể giải thích điều này có nghĩa là gì? Đây có phải là một hình thức của quá mức, trong đó mạng lưới thần kinh học một số cấu trúc có mặt trong đào tạo, nhưng có thể không có mặt trong thử nghiệm? Hay nó có nghĩa gì khác?


Có thể tìm thấy bài báo: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

Và phần tôi đang cố gắng hiểu là:

Học tăng cường được biết là không ổn định hoặc thậm chí phân kỳ khi một hàm xấp xỉ hàm phi tuyến như mạng nơ ron được sử dụng để biểu diễn hàm giá trị hành động (còn gọi là Q). Sự không ổn định này có một số nguyên nhân: các mối tương quan có trong chuỗi các quan sát, thực tế là các cập nhật nhỏ cho Q có thể thay đổi đáng kể chính sách và do đó thay đổi phân phối dữ liệu và tương quan giữa các giá trị hành động và giá trị đích.

Chúng tôi giải quyết những bất ổn này bằng một biến thể mới của Q-learning, sử dụng hai ý chính. Đầu tiên, chúng tôi sử dụng một cơ chế lấy cảm hứng từ sinh học gọi là phát lại kinh nghiệm ngẫu nhiên hóa dữ liệu, từ đó loại bỏ các mối tương quan trong chuỗi quan sát và làm mịn các thay đổi trong phân phối dữ liệu. Thứ hai, chúng tôi đã sử dụng một bản cập nhật lặp để điều chỉnh các giá trị hành động (Q) đối với các giá trị đích chỉ được cập nhật định kỳ, do đó làm giảm mối tương quan với mục tiêu.


Để chắc chắn rằng bạn đang đào tạo đại lý của mình về dữ liệu không tương thích, bạn không nên cập nhật bộ nhớ đại lý ở mỗi bước, hãy sửa một bước lưu trữ để thực hiện phân tách dữ liệu.
narjes karmani

Câu trả lời:


11

Vấn đề chính là, như trong nhiều lĩnh vực khác, DNN có thể khó đào tạo. Ở đây, một vấn đề là sự tương quan của dữ liệu đầu vào: nếu bạn nghĩ về một trò chơi video (họ thực sự sử dụng chúng để kiểm tra thuật toán của họ), bạn có thể tưởng tượng rằng các ảnh chụp màn hình được thực hiện sau một bước khác có tương quan cao: trò chơi phát triển "liên tục". Điều đó, đối với NN, có thể là một vấn đề: thực hiện nhiều lần lặp lại độ dốc trên các đầu vào tương tự và tương quan có thể dẫn đến việc điều chỉnh quá mức chúng và / hoặc rơi vào mức tối thiểu cục bộ. Đây là lý do tại sao họ sử dụng phát lại kinh nghiệm: họ lưu trữ một loạt "ảnh chụp nhanh" của trò chơi, sau đó xáo trộn chúng và chọn một số bước sau để thực hiện đào tạo. Theo cách này, dữ liệu không còn tương quan nữa. Sau đó, họ nhận thấy làm thế nào trong quá trình đào tạo các giá trị Q (được dự đoán bởi NN) có thể thay đổi chính sách đang diễn ra,


Theo dữ liệu "xáo trộn", bạn có nghĩa là các trải nghiệm ngẫu nhiên, ngoài chuỗi được lấy mẫu trong một lô nhỏ không? Làm thế nào điều đó tương ứng với "phần thưởng giảm giá trong tương lai", dường như ngụ ý các trải nghiệm theo trình tự?
isobretatel
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.