Làm thế nào để tôi mô hình một robot?


8

Những câu trả lời tôi nhận được cho câu hỏi về việc huấn luyện một dòng dõi robot sử dụng các kỹ thuật học tăng cường , khiến tôi phải suy nghĩ về cách huấn luyện robot. Tôi tin rằng về cơ bản có hai cách -

  1. Huấn luyện robot vật lý.
  2. Mô hình robot và mô phỏng đào tạo.
  3. Tôi đã bỏ lỡ một cái gì đó?

Cách tiếp cận 2 chắc chắn là cách tiếp cận tốt hơn. Tuy nhiên, một kiến ​​thức chuyên môn về chuyển động (phản hồi), một tín hiệu PWM (kích thích) nhất định sẽ gây ra khi robot ở trạng thái nhất định là bắt buộc. Chuyển động gây ra bởi tín hiệu PWM có thể phụ thuộc vào ( 1 ) điện áp pin hiện tại, ( 2 ) khối lượng của robot và ( 3 ) vận tốc hiện tại (tôi có bỏ lỡ điều gì không?).

Làm thế nào để tôi mô hình một robot như vậy? Và làm thế nào để tôi mô hình hóa nó nhanh chóng? Nếu tôi thay đổi pin hoặc thêm một vài bảng và các thiết bị ngoại vi khác và thay đổi khối lượng của robot, tôi sẽ phải sửa sang lại và đào tạo lại robot. Tôi có thể làm điều này bằng cách cung cấp một số PWM kích thích ngẫu nhiên và đo lường phản ứng không?

đã thêm: Câu hỏi liên quan của tôi trong dsp.SE

Cập nhật: Một đề xuất chỉnh sửa cho tiêu đề của Ian đáng được đề cập - " Làm thế nào để tôi mô hình hóa một robot để nếu động lực học của nó thay đổi, nó không cần phải đào tạo lại hoàn toàn? " Tôi nghĩ rằng đây cũng là một câu hỏi hay nhưng khác với một tôi đang hỏi ở đây Bây giờ tôi ổn với việc đào tạo lại.


Có rất nhiều câu hỏi tuyệt vời ở đây. Trong thực tế, có thể tốt hơn để chia điều này thành nhiều câu hỏi.
DaemonMaker

Làm thế nào để bạn đề nghị tôi làm điều đó mà không mất nền? Tôi đã chia một phần câu hỏi của mình thành dsp.SE
Lord Loh.

Về cơ bản bạn có hai câu hỏi đang diễn ra ở đây. Đầu tiên, làm thế nào để tôi mô hình một robot? Điều thứ hai, làm thế nào để tôi huấn luyện một robot được đưa ra một mô hình và một thuật toán học tập? Dường như với tôi đây có thể là hai câu hỏi riêng biệt.
DaemonMaker

Bạn đúng rồi. Câu hỏi xuất hiện như làm thế nào để đào tạo một robot đã được dự định là hùng biện. Tôi nghĩ rằng tôi sẽ cố gắng để chỉnh sửa nó ra.
Chúa ơi.

Trong trường hợp đó, tôi sẽ chờ xem các chỉnh sửa của bạn trước khi tôi cố gắng trả lời câu hỏi của bạn.
DaemonMaker

Câu trả lời:


4

Theo tôi thấy có hai câu hỏi chính ở đây. Đầu tiên là, làm thế nào để tôi mô hình một robot? Điều này thường được thực hiện với một công thức không gian trạng thái của các phương trình chuyển động . Các phương trình chính xác phụ thuộc vào cấu trúc vật lý của robot của bạn. Có, để mô hình hóa chúng với đầu vào PWM thì bạn cần xác định hàm truyền từ các giá trị PWM bạn cung cấp cho đầu ra của bộ truyền động. Sau đó, bạn cắm chức năng đó cho tín hiệu điều khiển trong mô hình của bạn. Một lần nữa đạo hàm của chức năng này là robot cụ thể. Điện áp pin hiện tại và khối lượng của robot có thể sẽ hữu ích nhưng tôi không biết về vận tốc.

Câu hỏi thứ hai là, đưa ra một mô hình toán học về robot của tôi, cách tốt nhất để huấn luyện thuật toán học tăng cường (RL) để điều khiển nó là gì? Tóm lại không có cách nào tốt nhất. Việc đào tạo trực tiếp trên robot có xu hướng tốn thời gian vì robot mất nhiều thời gian hơn để thực hiện các thử nghiệm. Tuy nhiên, mô phỏng có thể dẫn đến các chính sách ít chính xác hơn vì tính chất vật lý của mô phỏng được đơn giản hóa. Một cách tiếp cận khác là đào tạo người học về mô phỏng để có được xấp xỉ hợp lý và sau đó chuyển chính sách kết quả cho robot để cải tiến thêm. Điều này tất nhiên thất bại nếu mô hình không đủ chính xác. Nó cũng đòi hỏi sự phát triển thêm.

Cuối cùng, bạn hỏi "Tôi có thể [tu sửa và đào tạo lại robot] bằng cách cung cấp một số PWM kích thích ngẫu nhiên và đo lường phản ứng không?" Trong trường hợp của RL, không có lý do gì để nghĩ rằng chính sách tối ưu mới là bất cứ điều gì giống như chính sách tối ưu trước đó và vì vậy không có nhiều lý do để nghĩ rằng một vài điều khiển ngẫu nhiên sẽ cung cấp đủ thông tin để thay đổi chính sách một cách phù hợp. Tất nhiên, việc đào tạo lại chỉ cần xảy ra nếu những thay đổi bạn thực hiện đối với robot của bạn ảnh hưởng đến việc xây dựng mô hình không gian trạng thái và / hoặc mô hình hành động mà bạn sử dụng. Chẳng hạn, nếu mô hình hành động của bạn là về các hành động cấp cao ("đi bên trái", "đi bên phải", "đi tiếp") thì việc thay đổi động lực đòi hỏi phải thay đổi cách bạn thực hiện các chuyển động này nhưng chính sách vẫn nên giữ .


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.