Trước tiên chúng ta hãy cố gắng xây dựng một sự hiểu biết vững chắc về ý nghĩa của . Có thể bạn biết tất cả những điều này, nhưng theo tôi thì thật tốt khi vượt qua nó.δ
δ←R+γv^(S′,w)−v^(S,w)
Hãy bắt đầu với thuật ngữ . Thuật ngữ đó là giá trị của trạng thái , theo ước tính của nhà phê bình theo tham số hóa hiện tại . Giá trị trạng thái này về cơ bản là tổng chiết khấu của tất cả các phần thưởng mà chúng tôi mong đợi nhận được từ thời điểm này trở đi.v^(S,w)Sw
v^(S′,w) có ý nghĩa rất giống nhau, với sự khác biệt duy nhất là giá trị của trạng thái tiếp theo thay vì trạng thái trước đó . Nếu chúng ta giảm giá này bằng cách nhân với và thêm phần thưởng được quan sát vào nó, chúng ta sẽ có được phần bên phải của phương trình trước dấu trừ: . Điều này về cơ bản có cùng ý nghĩa với (nó là ước tính giá trị của trạng thái trước đó ), nhưng lần này nó dựa trên một số thông tin mới được quan sát (S′SγRR+γv^(S′,w)v^(S,w)SR) và ước tính giá trị của trạng thái tiếp theo, thay vì chỉ là ước tính của toàn bộ trạng thái.
Vì vậy, là sự khác biệt giữa hai cách khác nhau để ước tính chính xác cùng một giá trị, với một phần (bên trái của dấu trừ) được dự đoán là ước tính đáng tin cậy hơn một chút vì dựa trên một chút thông tin được biết là chính xác ( ).δR
δ là tích cực nếu quá trình chuyển đổi từ sang mang lại phần thưởng lớn hơn so với nhà phê bình dự kiến và tiêu cực nếu nó nhỏ hơn nhà phê bình dự kiến (dựa trên tham số hóa hiện tại ).SS′Rw
Tôi không nên nhìn vào độ dốc của một số chức năng khách quan mà tôi đang tìm cách giảm thiểu? Trước đó, trong chương này, ông nói rằng chúng ta có thể coi hiệu suất của chính sách đơn giản là hàm giá trị của nó, trong trường hợp nào là tất cả những gì chúng ta đang làm chỉ là điều chỉnh các tham số theo hướng tối đa hóa giá trị của từng trạng thái? Tôi nghĩ rằng điều đó đáng lẽ phải được thực hiện bằng cách điều chỉnh chính sách, chứ không phải bằng cách thay đổi cách chúng ta đánh giá một trạng thái.
Vâng, điều này nên được thực hiện, và đây chính xác là những gì được thực hiện bởi dòng sau:
θ←θ+αIδ∇θlogπ(A∣S,θ)
Tuy nhiên, đó không phải là điều duy nhất chúng tôi muốn cập nhật.
Tôi có thể hiểu rằng bạn muốn cập nhật diễn viên bằng cách kết hợp thông tin về giá trị nhà nước (được xác định bởi nhà phê bình). Điều này được thực hiện thông qua giá trị kết hợp thông tin đã nói, nhưng tôi không hiểu tại sao nó nhìn vào độ dốc của hàm giá trị trạng thái?
Chúng tôi C toNG muốn làm điều này, bởi vì nhà phê bình được cho là luôn đưa ra ước tính tốt nhất có thể về giá trị nhà nước. Nếu là khác không, điều này có nghĩa là chúng tôi đã phạm sai lầm trong nhà phê bình, vì vậy chúng tôi cũng muốn cập nhật nhà phê bình để trở nên chính xác hơn.δ