Câu hỏi được gắn thẻ «reinforcement-learning»

Một tập hợp các chiến lược động mà thuật toán có thể tìm hiểu cấu trúc của một môi trường trực tuyến bằng cách thực hiện một cách thích ứng các hành động liên quan đến các phần thưởng khác nhau để tối đa hóa các phần thưởng kiếm được.


3
Tính toán Cập nhật Gradient diễn viên trong thuật toán Gradient chính sách xác định sâu (DDPG)
Câu hỏi này liên quan đến bài viết Deepmind trên DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Hầu hết (tất cả?) Việc triển khai thuật toán DDPG mà tôi đã thấy tính toán cập nhật độ dốc cho mạng diễn viên theo , trong đó đại diện cho các tham số của mạng diễn …




2
Bất kỳ việc sử dụng hạt nhân hình chữ nhật trong các mạng thần kinh tích chập? Đặc biệt là khi phân tích bảng trò chơi
Tôi đã đọc một đống bài báo về mạng chập và học tăng cường. Tôi nhớ đã nhìn thấy một tờ giấy quan trọng với hình dạng không phải hình chữ nhật của lớp chập (hình màu xanh lục trong bản vẽ ngớ ngẩn này). Nhưng bây giờ tôi không …




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.