Tôi đã đọc các ghi chú bài giảng của Andrew Ng về học tập củng cố và tôi đã cố gắng hiểu tại sao phép lặp chính sách lại hội tụ đến hàm giá trị tối ưu và chính sách tối ưu .
Nhớ lại chính sách lặp lại là:
Tại sao thuật toán tham lam lại dẫn đến một chính sách tối ưu và hàm giá trị tối ưu? (Tôi biết các thuật toán tham lam không luôn đảm bảo điều đó, hoặc có thể bị mắc kẹt trong tối ưu cục bộ, vì vậy tôi chỉ muốn xem một bằng chứng cho sự tối ưu của thuật toán).
Ngoài ra, đối với tôi, việc lặp lại chính sách là một cái gì đó tương tự như phân cụm hoặc giảm độ dốc. Để phân cụm, vì với cài đặt hiện tại của các tham số, chúng tôi tối ưu hóa. Tương tự như độ dốc giảm dần vì nó chỉ chọn một số giá trị dường như tăng một số hàm. Hai phương thức này không phải lúc nào cũng hội tụ đến cực đại tối ưu và tôi đã cố gắng hiểu thuật toán này khác với các thuật toán trước mà tôi đã đề cập như thế nào.
Đây là những suy nghĩ của tôi cho đến nay:
Giả sử chúng tôi bắt đầu với một số chính sách , sau bước đầu tiên, đối với chính sách cố định đó, chúng tôi có:
Trong đó V ^ {(1)} là hàm giá trị cho lần lặp đầu tiên. Sau bước thứ hai, chúng tôi chọn một số chính sách mới để tăng giá trị của . Bây giờ, với chính sách mới , nếu chúng ta thực hiện bước thứ hai của thuật toán thì bất đẳng thức sau đây là đúng:
Vì chúng tôi chọn trong bước thứ hai để tăng hàm giá trị ở bước trước (nghĩa là cải thiện . Cho đến nay, rõ ràng việc chọn chỉ có thể tăng V ^ {(1)}, bởi vì đó là cách chúng tôi chọn . Tuy nhiên, sự nhầm lẫn của tôi xuất hiện ở bước lặp lại bởi vì một khi chúng tôi lặp lại và quay lại bước 1, chúng tôi thực sự thay đổi mọi thứ vì chúng tôi tính lại cho chính sách mới . Cung cấp cho:
nhưng nó KHÔNG phải là:
Đây có vẻ là một vấn đề vì đã được chọn để cải thiện và không phải . Về cơ bản các vấn đề là đảm bảo để nâng cao bằng cách làm thay của khi hàm giá trị là . Nhưng trong bước lặp lại, chúng tôi thay đổi thành , nhưng tôi không thấy cách đó đảm bảo rằng hàm giá trị cải thiện đơn điệu ở mỗi lần lặp lại vì được tính để cải thiện hàm giá trị khi các hàm giá trị giữ nguyên ở V pi 2 π 2 V π 1, nhưng bước 1 thay đổi thành (điều này rất tệ vì tôi chỉ cải thiện hàm giá trị trước đó mà chúng tôi có).