Khi thiết kế các giải pháp cho các vấn đề như Lunar Lander trên OpenAIGym , Học tăng cường là một phương tiện hấp dẫn để cung cấp cho tác nhân quyền kiểm soát hành động đầy đủ để hạ cánh thành công.
Nhưng các trường hợp trong đó các thuật toán hệ thống điều khiển, chẳng hạn như bộ điều khiển PID , sẽ chỉ làm một công việc thích hợp, nếu không tốt hơn, Học tăng cường?
Những câu hỏi như câu hỏi này làm rất tốt trong việc giải quyết lý thuyết của câu hỏi này, nhưng làm rất ít để giải quyết thành phần thực tế.
Là một kỹ sư Trí tuệ nhân tạo, những yếu tố nào trong miền vấn đề nên gợi ý cho tôi rằng bộ điều khiển PID không đủ để giải quyết vấn đề và thay vào đó nên sử dụng thuật toán Học tăng cường (hoặc ngược lại)?