Sự khác biệt giữa lặp lại giá trị và lặp lại chính sách là gì?

Question 1

Trong học tập củng cố, sự khác biệt giữa lặp chính sách và lặp giá trị là gì?

Theo những gì tôi hiểu, trong phép lặp giá trị, bạn sử dụng phương trình Bellman để tìm chính sách tối ưu, trong khi, trong phép lặp chính sách, bạn chọn ngẫu nhiên một chính sách π và tìm phần thưởng của chính sách đó.

Tôi nghi ngờ là nếu bạn đang chọn một chính sách ngẫu nhiên π trong PI, thì làm thế nào nó được đảm bảo là chính sách tối ưu, ngay cả khi chúng ta đang chọn một số chính sách ngẫu nhiên.

Question 2

Chúng ta hãy nhìn chúng cạnh nhau. Các phần chính để so sánh được đánh dấu. Các số liệu từ cuốn sách của Sutton và Barto: Học tập củng cố: Giới thiệu .

Những điểm chính:

Lặp lại chính sách bao gồm: đánh giá chính sách + cải tiến chính sách và cả hai được lặp đi lặp lại cho đến khi chính sách hội tụ.
Phép lặp giá trị bao gồm: tìm hàm giá trị tối ưu + một trích xuất chính sách . Không có sự lặp lại của cả hai bởi vì một khi hàm giá trị là tối ưu, thì chính sách ngoài nó cũng phải tối ưu (tức là hội tụ).
Việc tìm kiếm hàm giá trị tối ưu cũng có thể được coi là sự kết hợp giữa cải tiến chính sách (do max) và đánh giá chính sách bị cắt ngắn (gán lại v_ (các) chỉ sau một lần quét tất cả các trạng thái bất kể hội tụ).
Các thuật toán để đánh giá chính sách và tìm hàm giá trị tối ưu rất giống nhau ngoại trừ hoạt động tối đa (như được đánh dấu)
Tương tự, bước quan trọng để cải thiện chính sách và trích xuất chính sách là giống hệt nhau ngoại trừ bước trước là kiểm tra tính ổn định.

Theo kinh nghiệm của tôi, lặp lại chính sách nhanh hơn lặp lại giá trị , vì một chính sách hội tụ nhanh hơn một hàm giá trị. Tôi nhớ điều này cũng được mô tả trong cuốn sách.

Tôi đoán sự nhầm lẫn chủ yếu đến từ tất cả các thuật ngữ hơi giống nhau này, điều này cũng khiến tôi bối rối trước đây.

Question 3

Trong thuật toán lặp lại chính sách , bạn bắt đầu với một chính sách ngẫu nhiên, sau đó tìm hàm giá trị của chính sách đó (bước đánh giá chính sách), sau đó tìm chính sách mới (cải tiến) dựa trên hàm giá trị trước đó, v.v. Trong quá trình này, mỗi chính sách được đảm bảo là một cải tiến nghiêm ngặt so với chính sách trước đó (trừ khi nó đã là tối ưu). Với một chính sách, hàm giá trị của nó có thể được lấy bằng toán tử Bellman .

Trong phép lặp giá trị , bạn bắt đầu với một hàm giá trị ngẫu nhiên và sau đó tìm một hàm giá trị mới (cải tiến) trong một quá trình lặp lại, cho đến khi đạt đến hàm giá trị tối ưu. Lưu ý rằng bạn có thể dễ dàng rút ra chính sách tối ưu từ hàm giá trị tối ưu. Quá trình này dựa trên toán tử Bellman tối ưu .

Theo một nghĩa nào đó, cả hai thuật toán đều có chung một nguyên tắc hoạt động và chúng có thể được coi là hai trường hợp lặp lại chính sách tổng quát . Tuy nhiên, toán tử Bellman tối ưu chứa một toán tử max , không tuyến tính và do đó, nó có các tính năng khác nhau. Ngoài ra, có thể sử dụng các phương pháp kết hợp giữa lặp giá trị thuần túy và lặp lại chính sách thuần túy.

Question 4

Sự khác biệt cơ bản là -

Trong Lặp lại chính sách - Bạn chọn ngẫu nhiên một chính sách và tìm hàm giá trị tương ứng với nó, sau đó tìm một chính sách mới (cải tiến) dựa trên hàm giá trị trước đó, và như vậy, điều này sẽ dẫn đến chính sách tối ưu.

Trong Lặp lại giá trị - Bạn chọn ngẫu nhiên một hàm giá trị, sau đó tìm một hàm giá trị mới (cải tiến) trong một quy trình lặp lại, cho đến khi đạt đến hàm giá trị tối ưu, sau đó suy ra chính sách tối ưu từ hàm giá trị tối ưu đó.

Việc lặp lại chính sách hoạt động trên nguyên tắc “Đánh giá chính sách —-> Cải tiến chính sách”.

Sự lặp lại giá trị hoạt động dựa trên nguyên tắc “Hàm giá trị tối ưu —-> chính sách tối ưu”.

Question 5

Theo như tôi được biết, trái ngược với ý tưởng của @zyxue, VI thường nhanh hơn PI nhiều.

Lý do rất đơn giản, như bạn đã biết, Phương trình Bellman được sử dụng để giải quyết hàm giá trị cho chính sách nhất định. Vì chúng ta có thể giải quyết trực tiếp hàm giá trị cho chính sách tối ưu , nên việc giải quyết hàm giá trị cho chính sách hiện tại rõ ràng là lãng phí thời gian.

Đối với câu hỏi của bạn về khả năng chuyển đổi của PI, tôi nghĩ bạn có thể bỏ qua thực tế rằng nếu bạn cải thiện chiến lược cho mỗi trạng thái thông tin, thì bạn sẽ cải thiện chiến lược cho toàn bộ trò chơi. Điều này cũng dễ dàng chứng minh, nếu bạn đã quen thuộc với Giảm thiểu sự hối tiếc phản thực - tổng sự hối tiếc cho mỗi trạng thái thông tin đã tạo thành giới hạn trên của sự hối tiếc tổng thể, và do đó giảm thiểu sự hối tiếc cho mỗi trạng thái sẽ giảm thiểu sự hối tiếc tổng thể, dẫn đến chính sách tối ưu.