4
Sự khác biệt giữa lặp lại giá trị và lặp lại chính sách là gì?
Trong học tập củng cố, sự khác biệt giữa lặp chính sách và lặp giá trị là gì? Theo những gì tôi hiểu, trong phép lặp giá trị, bạn sử dụng phương trình Bellman để tìm chính sách tối ưu, trong khi, trong phép lặp chính sách, bạn chọn ngẫu …