Phần chính của văn bản được trích dẫn là:
Để thực hiện phát lại trải nghiệm, chúng tôi lưu trữ trải nghiệm của đại lýet= ( st, mộtt, rt, st + 1)
Điều này có nghĩa là thay vì chạy Q-learning trên các cặp trạng thái / hành động khi chúng xảy ra trong quá trình mô phỏng hoặc trải nghiệm thực tế, hệ thống lưu trữ dữ liệu được phát hiện cho [trạng thái, hành động, phần thưởng, next_state] - thường trong một bảng lớn. Lưu ý rằng điều này không lưu trữ các giá trị liên quan - đây là dữ liệu thô để đưa vào tính toán giá trị hành động sau này.
Giai đoạn học tập sau đó tách biệt một cách hợp lý với việc tích lũy kinh nghiệm và dựa trên việc lấy các mẫu ngẫu nhiên từ bảng này. Bạn vẫn muốn xen kẽ hai quy trình - hành động và học hỏi - bởi vì cải thiện chính sách sẽ dẫn đến các hành vi khác nhau nên khám phá các hành động gần hơn với các quy trình tối ưu và bạn muốn học hỏi từ các quy trình đó. Tuy nhiên, bạn có thể phân chia điều này theo cách bạn muốn - ví dụ: thực hiện một bước, học từ ba bước ngẫu nhiên trước đó, v.v ... Các mục tiêu Q-Learning khi sử dụng phát lại trải nghiệm sử dụng các mục tiêu giống như phiên bản trực tuyến, do đó không có công thức mới cho điều đó. Công thức thua lỗ được đưa ra cũng là công thức bạn sẽ sử dụng cho DQN mà không cần trải nghiệm lại. Sự khác biệt duy nhất là đó là, một, r, s', một' bạn ăn vào nó.
Trong DQN, nhóm DeepMind cũng duy trì hai mạng và chuyển đổi mạng nào đang học và mạng nào được cung cấp trong ước tính giá trị hành động hiện tại là "bootstraps". Điều này giúp cho sự ổn định của thuật toán khi sử dụng một xấp xỉ hàm phi tuyến tính. Đó là những gì thanh đại diện cho - nó biểu thị phiên bản đông lạnh thay thế của các trọng số.θ ¯Tôi
Ưu điểm của phát lại kinh nghiệm:
Sử dụng hiệu quả hơn kinh nghiệm trước đây, bằng cách học hỏi với nó nhiều lần. Đây là chìa khóa khi có được trải nghiệm thực tế tốn kém, bạn có thể sử dụng toàn bộ nó. Các cập nhật Q-learning tăng dần và không hội tụ nhanh, do đó, nhiều lượt đi với cùng một dữ liệu có lợi, đặc biệt là khi có kết quả thấp trong kết quả ngay lập tức (phần thưởng, trạng thái tiếp theo) với cùng một trạng thái, cặp hành động.
Hành vi hội tụ tốt hơn khi đào tạo một hàm xấp xỉ. Một phần điều này là do dữ liệu giống như dữ liệu iid được giả định trong hầu hết các bằng chứng hội tụ học tập có giám sát.
Nhược điểm của kinh nghiệm chơi lại:
- Việc sử dụng các thuật toán học nhiều bước khó hơn, chẳng hạn như Q ( ), có thể được điều chỉnh để đưa ra các đường cong học tập tốt hơn bằng cách cân bằng giữa sai lệch (do bootstrapping) và phương sai (do sự chậm trễ và ngẫu nhiên trong kết quả dài hạn ). DQN nhiều bước với DQN phát lại kinh nghiệm là một trong những phần mở rộng được khám phá trong bài báo Rainbow: Kết hợp các cải tiến trong học tập tăng cường sâu .λ
Cách tiếp cận được sử dụng trong DQN được David Silver phác thảo ngắn gọn trong các phần của bài giảng video này (khoảng 01:17:00, nhưng đáng xem các phần trước nó). Tôi khuyên bạn nên xem toàn bộ loạt bài, đây là một khóa học sau đại học về học tập củng cố, nếu bạn có thời gian.