Khi nào tôi nên sử dụng Học tăng cường so với Điều khiển PID?

Khi thiết kế các giải pháp cho các vấn đề như Lunar Lander trên OpenAIGym , Học tăng cường là một phương tiện hấp dẫn để cung cấp cho tác nhân quyền kiểm soát hành động đầy đủ để hạ cánh thành công.

Nhưng các trường hợp trong đó các thuật toán hệ thống điều khiển, chẳng hạn như bộ điều khiển PID , sẽ chỉ làm một công việc thích hợp, nếu không tốt hơn, Học tăng cường?

Những câu hỏi như câu hỏi này làm rất tốt trong việc giải quyết lý thuyết của câu hỏi này, nhưng làm rất ít để giải quyết thành phần thực tế.

Là một kỹ sư Trí tuệ nhân tạo, những yếu tố nào trong miền vấn đề nên gợi ý cho tôi rằng bộ điều khiển PID không đủ để giải quyết vấn đề và thay vào đó nên sử dụng thuật toán Học tăng cường (hoặc ngược lại)?

reinforcement-learning ai-design control-theory

— SeeDerekEngineer
nguồn

Ý tưởng cơ bản mà tôi có về PID nói rằng nó không dễ để thiết kế. Nó có rất nhiều tích hợp và khác biệt liên quan. Vì vậy, đây về cơ bản là ý tưởng giống như khi bạn thay thế số liệu thống kê bằng các phương pháp ML. Hệ thống điều khiển chắc chắn là hoàn hảo nhưng nó là quá nhiều công việc.

— DuttaA

Trên thực tế, nó không quá nhiều công việc, tiêu chuẩn khá trong công nghiệp, sử dụng các công cụ thiết kế hệ thống hiện đại như MATLAB, bạn có thể điều chỉnh PID hoặc bất kỳ bộ điều khiển nào khác tương đối dễ dàng để đáp ứng nhu cầu của bạn. Học tăng cường không được áp dụng trong thực tế vì nó cần rất nhiều dữ liệu và không có sự kiểm soát lý thuyết như đối với lý thuyết điều khiển cổ điển. Nhân tiện, thiết kế trình điều khiển không liên quan đến việc làm việc trực tiếp với các tích phân / vi phân, đối với các hệ thống tuyến tính, tất cả các công việc được thực hiện trong miền Laplace bao gồm các thao tác đại số đơn giản

— Brale_

@Brale_ nhưng nó vẫn liên quan đến nhiều kiến thức lý thuyết..Laplace chỉ đơn giản hóa sự khác biệt nhưng bạn cần biết cách thiết kế mọi thứ (cực và số không) để hệ thống không trở nên không ổn định. Thật khó để hình dung với tôi cách những thứ đó thực sự hoạt động.

— DuttaA

Như một quy tắc tốt đã giúp tôi trong các dự án trước đây, nếu bạn không thể giải thích chính sách tối ưu (PID, RL, hay nói cách khác) trong một vài câu, thì PID sẽ thực sự khó khăn. Chính sách tối ưu cho Pacman là gì?

— Jaden Tra Mand

Tôi nghĩ rằng các ý kiến về cơ bản là đi đúng hướng.

Bộ điều khiển PID rất hữu ích để tìm các chính sách tối ưu trong các hệ thống động liên tục và thường các miền này cũng được sử dụng làm điểm chuẩn cho RL, chính xác vì có một chính sách tối ưu dễ dàng bắt nguồn. Tuy nhiên, trong thực tế, rõ ràng bạn thích bộ điều khiển PID cho bất kỳ miền nào mà bạn có thể dễ dàng thiết kế một bộ điều khiển: hành vi của bộ điều khiển được hiểu rõ, trong khi các giải pháp RL thường khó diễn giải.

Trường hợp RL tỏa sáng trong các nhiệm vụ nơi chúng ta biết hành vi tốt trông như thế nào (nghĩa là chúng ta biết chức năng phần thưởng) và chúng ta biết đầu vào cảm biến trông như thế nào (nghĩa là chúng ta có thể mô tả hoàn toàn và chính xác một trạng thái nhất định), nhưng chúng ta có rất ít hoặc không biết những gì chúng ta thực sự muốn các đại lý làm để đạt được những phần thưởng đó.

Đây là một ví dụ tốt:

Nếu tôi muốn chế tạo một đặc vụ để điều khiển một chiếc máy bay từ phía trước máy bay địch với các kiểu di chuyển đã biết đến phía sau nó, sử dụng ít nhiên liệu nhất, tôi sẽ thích sử dụng bộ điều khiển PID hơn .
Nếu tôi muốn chế tạo một đặc vụ để điều khiển máy bay và bắn hạ máy bay địch đủ nhiên liệu để hạ cánh, nhưng không có mô tả chính thức về cách máy bay địch có thể tấn công (có lẽ một chuyên gia về con người sẽ điều khiển nó trong mô phỏng chống lại đặc vụ của chúng tôi) , Tôi rất thích RL .

— John Doucette
nguồn