Trí tuệ nhân tạo reinforcement-learning

6

Sự khác biệt giữa học tập củng cố dựa trên mô hình và mô hình là gì?

Sự khác biệt giữa học tập củng cố dựa trên mô hình và mô hình là gì? Dường như với tôi, bất kỳ người học không có mô hình nào, học qua thử và sai, đều có thể được quy định là dựa trên mô hình. Trong trường hợp đó, …

28 reinforcement-learning comparison model-based model-free

1

Mối quan hệ giữa phương pháp học tập chính sách và độ dốc chính sách là gì?

Theo tôi hiểu, Q-learning và độ dốc chính sách (PG) là hai phương pháp chính được sử dụng để giải quyết các vấn đề RL. Trong khi Q-learning nhằm mục đích dự đoán phần thưởng của một hành động nhất định được thực hiện ở một trạng thái nhất định, …

20 reinforcement-learning q-learning policy-gradients comparison

4

Làm thế nào để xử lý các động thái không hợp lệ trong học tập củng cố?

Tôi muốn tạo ra một AI có thể chơi năm liên tiếp / gomoku. Như tôi đã đề cập trong tiêu đề, tôi muốn sử dụng học tăng cường cho việc này. Tôi sử dụng phương pháp gradient chính sách , cụ thể là REINFORCE, với đường cơ sở. Đối …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Làm thế nào để xác định các trạng thái trong học tập củng cố?

Tôi đang nghiên cứu học tập củng cố và các biến thể của nó. Tôi bắt đầu hiểu được cách các thuật toán hoạt động và cách chúng áp dụng cho MDP. Điều tôi không hiểu là quá trình xác định các trạng thái của MDP. Trong hầu hết các …

14 reinforcement-learning

2

Hiệu quả mẫu là gì và làm thế nào để lấy mẫu quan trọng để đạt được nó?

Chẳng hạn, tiêu đề của bài viết này có nội dung: "Diễn viên hiệu quả - Phê bình với phát lại kinh nghiệm". Hiệu quả mẫu là gì và làm thế nào để lấy mẫu quan trọng để đạt được nó?

14 reinforcement-learning statistical-ai importance-sampling

1

Tại sao bạn không thấy các lớp bỏ học trên các ví dụ học tập củng cố?

Tôi đã xem xét việc học tăng cường, và đặc biệt là chơi xung quanh với việc tạo môi trường của riêng tôi để sử dụng với OpenAI Gym AI. Tôi đang sử dụng các tác nhân từ dự án ổn định_baselines để thử nghiệm với nó. Một điều tôi …

13 machine-learning reinforcement-learning overfitting dropout

2

Không gian hành động không nhất quán trong học tập củng cố

Câu hỏi này liên quan đến Học tập Củng cố và không gian hành động khác nhau / không nhất quán cho mỗi / một số tiểu bang . Ý tôi là gì bởi không gian hành động không nhất quán ? Giả sử bạn có MDP trong đó số …

13 reinforcement-learning

1

Khi nào tôi nên sử dụng Học tăng cường so với Điều khiển PID?

Khi thiết kế các giải pháp cho các vấn đề như Lunar Lander trên OpenAIGym , Học tăng cường là một phương tiện hấp dẫn để cung cấp cho tác nhân quyền kiểm soát hành động đầy đủ để hạ cánh thành công. Nhưng các trường hợp trong đó các …

12 reinforcement-learning ai-design control-theory

3

Có ứng dụng nào của việc học tăng cường ngoài các trò chơi không?

Có cách nào để dạy học tăng cường trong các ứng dụng khác ngoài game không? Các ví dụ duy nhất tôi có thể tìm thấy trên Internet là của các đại lý trò chơi. Tôi hiểu rằng VNC sẽ kiểm soát đầu vào cho các trò chơi thông qua …

12 reinforcement-learning applications

3

Làm thế nào để thực hiện một không gian hành động bị hạn chế trong học tập củng cố?

Tôi đang mã hóa một mô hình học tập củng cố với một tác nhân PPO nhờ vào thư viện Tensorforce rất tốt , được xây dựng trên đỉnh của Tensorflow. Phiên bản đầu tiên rất đơn giản và giờ tôi đang lặn vào một môi trường phức tạp hơn, …

12 deep-learning reinforcement-learning

1

Tại sao DQN yêu cầu hai mạng khác nhau?

Tôi đã trải qua quá trình triển khai DQN này và tôi thấy rằng trên dòng 124 và 125 hai mạng Q khác nhau đã được khởi tạo. Từ hiểu biết của tôi, tôi nghĩ rằng một mạng dự đoán hành động phù hợp và mạng thứ hai dự đoán …

12 reinforcement-learning q-learning dqn

3

Tại sao tỷ lệ chiết khấu trong thuật toán REINFORCE xuất hiện hai lần?

Tôi đang đọc cuốn sách Củng cố học tập: Giới thiệu của Richard S. Sutton và Andrew G. Barto (bản thảo hoàn chỉnh, ngày 5 tháng 11 năm 2017). Trên trang 271, mã giả cho Phương pháp Gradient chính sách Monte-Carlo được trình bày. Nhìn vào mã giả này tôi …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

Làm thế nào để luôn là một nhà nghiên cứu cập nhật trong cộng đồng ML / RL?

Là một sinh viên muốn làm việc trên máy học, tôi muốn biết làm thế nào có thể bắt đầu việc học của mình và làm thế nào để theo dõi nó để luôn cập nhật. Ví dụ, tôi sẵn sàng làm việc về các vấn đề RL và MAB, …

11 machine-learning reinforcement-learning research markov-decision-process

2

Tại sao Q-learning không hội tụ khi sử dụng xấp xỉ hàm?

Thuật toán Q-learning dạng bảng được đảm bảo để tìm hàm tối ưu , , với các điều kiện sau (điều kiện Robbins-Monro ) về tốc độ học tập được thỏa mãnQQQQ*Q*Q^* Σtαt( S , một ) = ∞Σtαt(S,một)= =∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < …

11 reinforcement-learning q-learning deep-rl proofs function-approximation

1

Làm thế nào độ dốc chính sách có thể được áp dụng trong trường hợp có nhiều hành động liên tục?

Tối ưu hóa chính sách khu vực đáng tin cậy (TRPO) và tối ưu hóa chính sách gần (PPO) là hai thuật toán độ dốc chính sách tiên tiến. Thông thường, khi sử dụng một hành động liên tục duy nhất, bạn sẽ sử dụng một số phân phối xác …

11 deep-learning reinforcement-learning trpo

Câu hỏi được gắn thẻ «reinforcement-learning»