Động lực học tập


8

Gần đây tôi đã biết về Q-learning, một kỹ thuật học tập củng cố, ước tính trực tiếp giá trị dự kiến ​​của việc thực hiện một hành động trong một trạng thái.

Tôi tự hỏi liệu có tồn tại các kỹ thuật để thực hiện "học động lực học", để ước tính động lực học của một hệ thống. Một tác nhân "học động" có thể chọn các hành động giúp nó ước tính hàm chuyển trạng thái hoặc để ước tính các tham số của một số hàm chuyển đổi đã biết.

Ví dụ, một tác nhân "học động lực học" trong hệ thống cực cart sẽ phát hiện ra một hàm gần đúng với các phương trình chuyển động của cực cart. Hoặc, tác nhân có thể biết các phương trình này, nhưng không phải là các tham số của hệ thống, như mô men quán tính của con lắc hoặc khối lượng của xe đẩy.

Có những kỹ thuật nào để thực hiện "học động"?

Câu trả lời:


4

Có ba vấn đề. Đầu tiên, bạn phải chọn một lớp mô hình cho động lực học. Thứ hai, bạn phải xây dựng một tập huấn luyện, bằng cách đưa tác nhân xuống các quỹ đạo khác nhau để khám phá không gian trạng thái. Thứ ba, bạn cần một cách để học / suy ra một mô hình động lực cụ thể từ tập huấn luyện này. Có nhiều cách khác nhau để khởi tạo từng nhiệm vụ này.

Trong chế tạo robot, một lựa chọn phổ biến là sử dụng quy trình quyết định Markov (MDP) cho mô hình động lực học. Đây là một lựa chọn tiện lợi, bởi vì có những cách tương đối chuẩn để học MDP từ tập huấn luyện, và vì được đưa ra mô hình động lực học MDP, nên nghiên cứu kỹ cách xây dựng bộ điều khiển cho hệ thống có tính đến động lực học. Một lựa chọn khác là sử dụng quy trình ra quyết định Markov bậc cao hơn hoặc quy trình ra quyết định Markov có thể quan sát được một phần, nhưng những quy trình đó có thể khó sử dụng hơn nhiều.

Có nhiều cách để khám phá không gian nhà nước. Chương 3.1 của luận án tiến sĩ của Pieter Abbeel có một cái nhìn tổng quan đẹp vào năm 2008.

Để suy luận / tìm hiểu MDP được cung cấp một tập huấn luyện, bạn có thể sử dụng ước tính khả năng tối đa. Kỹ thuật phức tạp hơn cũng có thể; xem luận án tiến sĩ của Abbeel để biết tổng quan về điều này (Chương 3 và 4).

Tổng quát hơn, xem tài liệu về nhận dạng hệ thống từ lĩnh vực lý thuyết điều khiển.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.