Có phải trò chơi DQN Atari của DeepMind đồng thời học?


9

DeepMind tuyên bố rằng mạng Q sâu (DQN) của họ có thể liên tục điều chỉnh hành vi của nó trong khi học chơi 49 trò chơi Atari.

Sau khi học tất cả các trò chơi có cùng mạng lưới thần kinh, tác nhân có thể chơi tất cả các trò chơi ở cấp độ 'siêu phàm' (bất cứ khi nào nó được trình bày ngẫu nhiên với một trong các trò chơi) hoặc chỉ có thể chơi tốt một trò chơi tại một thời điểm vì chuyển đổi yêu cầu học lại?


"Sau khi học tất cả các trò chơi có cùng mạng lưới thần kinh". Điều này có nghĩa là cùng một kiến ​​trúc NN HOẶC cùng một kiến ​​trúc và một tập các trọng số?
Ankur

@Ankur thực sự tôi không chắc chắn - đó là sự hiểu biết (có giới hạn) của tôi rằng họ đã sử dụng cùng một kiến ​​trúc và không đặt lại trọng số giữa các trò chơi.
Dion

Câu trả lời:


2

Chuyển đổi yêu cầu học lại.

Ngoài ra, lưu ý rằng :

Chúng tôi sử dụng cùng một kiến ​​trúc mạng, thuật toán học tập và cài đặt siêu đường kính trên tất cả bảy trò chơi, cho thấy cách tiếp cận của chúng tôi đủ mạnh để làm việc trên nhiều trò chơi khác nhau mà không cần kết hợp thông tin cụ thể của trò chơi. Mặc dù chúng tôi đã đánh giá các đại lý của mình trên các trò chơi thực tế và chưa sửa đổi, chúng tôi đã thực hiện một thay đổi đối với cấu trúc phần thưởng của các trò chơi trong quá trình đào tạo.

mạng đã vượt trội hơn tất cả các thuật toán RL trước đây trên sáu trong số bảy trò chơi mà chúng tôi đã thử và vượt qua một người chơi chuyên gia về ba người trong số họ.


1

Chuyển đổi đòi hỏi phải học lại, mạng không có một nhóm trọng số cho phép nó chơi tốt tất cả các trò chơi. Điều này là do vấn đề quên thảm khốc.

Tuy nhiên, công việc gần đây đã được thực hiện để khắc phục vấn đề này:

"Khắc phục sự lãng quên thảm khốc trong mạng lưới thần kinh", 2016

Giấy: https://arxiv.org/pdf/1612.00796v1.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.