Câu hỏi được gắn thẻ «reinforcement-learning»

Đối với các câu hỏi liên quan đến việc học được kiểm soát bởi sự củng cố tích cực bên ngoài hoặc tín hiệu phản hồi tiêu cực hoặc cả hai, trong đó việc học và sử dụng những gì đã được học cho đến nay xảy ra đồng thời.


3
Là chính sách tối ưu luôn luôn ngẫu nhiên nếu môi trường cũng là ngẫu nhiên?
Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên? Bằng trực giác, nếu môi trường là xác định (có nghĩa là, nếu các đại lý …





4
Không có ý nghĩa gì về văn phòng phẩm của người Hồi giáo trong bối cảnh học tập củng cố?
Tôi nghĩ rằng tôi đã thấy các biểu thức "dữ liệu tĩnh", "động lực học cố định" và "chính sách dừng", trong số những thứ khác, trong bối cảnh học tập củng cố. Nó có nghĩa là gì? Tôi nghĩ rằng chính sách cố định có nghĩa là chính sách …






1
Có sự khác biệt trong kiến ​​trúc của việc học tăng cường sâu khi nhiều hành động được thực hiện thay vì một hành động không?
Tôi đã xây dựng một tác nhân học tập củng cố độ dốc chính sách xác định sâu để có thể xử lý bất kỳ trò chơi / nhiệm vụ nào chỉ có một hành động. Tuy nhiên, tác nhân dường như thất bại khủng khiếp khi có hai hoặc …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.