Thống kê và dữ liệu lớn reinforcement-learning

3

Tại sao Q-learning đánh giá quá cao giá trị hành động?

Tôi gặp khó khăn trong việc tìm bất kỳ lời giải thích nào về lý do tại sao Q-learning tiêu chuẩn có xu hướng đánh giá quá cao các giá trị q (được giải quyết bằng cách sử dụng Q-learning kép). Các nguồn duy nhất tôi tìm thấy không thực …

8 machine-learning reinforcement-learning

3

Tính toán Cập nhật Gradient diễn viên trong thuật toán Gradient chính sách xác định sâu (DDPG)

Câu hỏi này liên quan đến bài viết Deepmind trên DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Hầu hết (tất cả?) Việc triển khai thuật toán DDPG mà tôi đã thấy tính toán cập nhật độ dốc cho mạng diễn viên theo , trong đó đại diện cho các tham số của mạng diễn …

8 machine-learning neural-networks deep-learning reinforcement-learning

1

Sự nhầm lẫn thuật toán MADDPG đa tác nhân-tác nhân

Tôi đang cố gắng tìm hiểu bài báo từ openAI có tên là Diễn viên đa tác nhân - Phê bình cho môi trường hợp tác cạnh tranh hỗn hợp Trong bài báo, họ đề cập rằng họ chống lại vấn đề không cố định môi trường bằng cách lấy …

7 machine-learning deep-learning reinforcement-learning

2

Học tăng cường có phải là lựa chọn đúng đắn cho hội họa như Bob Ross?

Nơi làm việc của tôi đang có một thử thách mã 2 tuần liên quan đến việc tạo ra một thuật toán để tái tạo 100 bức tranh Bob Ross mẫu càng sát càng tốt với một số hạn chế: "Tranh" được gửi dưới dạng tệp JSON chứa màu nền …

7 reinforcement-learning generative-models

2

Sự khác biệt giữa phê bình diễn viên lợi thế và phê bình diễn viên TD?

Tôi có một câu hỏi liên quan đến phương pháp phê bình diễn viên trong học tập củng cố. Trong các slide này ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) các loại khác nhau của các nhà phê bình diễn viên được giải thích. Nhà phê bình diễn viên lợi thế và nhà phê …

7 reinforcement-learning

2

Bất kỳ việc sử dụng hạt nhân hình chữ nhật trong các mạng thần kinh tích chập? Đặc biệt là khi phân tích bảng trò chơi

Tôi đã đọc một đống bài báo về mạng chập và học tăng cường. Tôi nhớ đã nhìn thấy một tờ giấy quan trọng với hình dạng không phải hình chữ nhật của lớp chập (hình màu xanh lục trong bản vẽ ngớ ngẩn này). Nhưng bây giờ tôi không …

7 references conv-neural-network reinforcement-learning

1

Học tăng cường học bằng Sutton, Tic tac toe tự chơi

Tôi mới bắt đầu cuốn sách của Sutton và Barto, Học tăng cường: Giới thiệu và tò mò về cách nghĩ về câu trả lời cho Bài tập 1.1: Tự chơi . Giả sử, thay vì chơi với một đối thủ ngẫu nhiên, thuật toán học tăng cường được mô …

7 reinforcement-learning

3

Phần thưởng trung gian có thể được sử dụng trong học tập củng cố?

Có phải thông lệ trong RL chỉ có một phần thưởng được đưa ra khi kết thúc nhiệm vụ không? Hoặc cũng có thể giới thiệu các nhiệm vụ / mục tiêu trung gian, để phản hồi không bị trì hoãn và cần thêm phần thưởng (chức năng)?

7 machine-learning reinforcement-learning

2

Tài nguyên để bắt đầu với học tập củng cố sâu

Giả sử người học thành thạo với các mạng lưới thần kinh nhân tạo, và có một số nền tảng trong học tập củng cố. Một số tài nguyên tốt (sách / video / giấy tờ / GitHub repo / v.v.) để bắt đầu với việc học tập củng cố …

7 neural-networks references deep-learning reinforcement-learning

2

nghĩa của 'Monte Carlo' trong câu này

Đây là từ một bài báo 'Thuật toán học tập củng cố ngược' của Ng, Russell (2001) Chúng tôi giả định rằng chúng tôi có khả năng mô phỏng các quỹ đạo trong MDP (từ trạng thái ban đầu ) theo chính sách tối ưu hoặc theo bất kỳ chính …

7 machine-learning terminology monte-carlo reinforcement-learning

Câu hỏi được gắn thẻ «reinforcement-learning»