Gần đây tôi đã biết về Q-learning, một kỹ thuật học tập củng cố, ước tính trực tiếp giá trị dự kiến của việc thực hiện một hành động trong một trạng thái.
Tôi tự hỏi liệu có tồn tại các kỹ thuật để thực hiện "học động lực học", để ước tính động lực học của một hệ thống. Một tác nhân "học động" có thể chọn các hành động giúp nó ước tính hàm chuyển trạng thái hoặc để ước tính các tham số của một số hàm chuyển đổi đã biết.
Ví dụ, một tác nhân "học động lực học" trong hệ thống cực cart sẽ phát hiện ra một hàm gần đúng với các phương trình chuyển động của cực cart. Hoặc, tác nhân có thể biết các phương trình này, nhưng không phải là các tham số của hệ thống, như mô men quán tính của con lắc hoặc khối lượng của xe đẩy.
Có những kỹ thuật nào để thực hiện "học động"?