2
Tại sao thuật toán lặp chính sách hội tụ đến hàm chính sách và giá trị tối ưu?
Tôi đã đọc các ghi chú bài giảng của Andrew Ng về học tập củng cố và tôi đã cố gắng hiểu tại sao phép lặp chính sách lại hội tụ đến hàm giá trị tối ưu và chính sách tối ưu .V*V∗V^*π*π∗\pi^* Nhớ lại chính sách lặp lại là: …