Chức năng mất chỉ trích diễn viên trong học tập củng cố

Trong học tập phê bình diễn viên để học tăng cường, tôi hiểu rằng bạn có một "diễn viên" đang quyết định hành động và một "nhà phê bình" sau đó đánh giá những hành động đó, tuy nhiên, tôi bối rối về chức năng mất thực sự đang nói tôi.

Trong cuốn sách của Sutton và Barton, trang 274 (292 của pdf) được tìm thấy ở đây http://ufal.mff.cuni.cz/~straka/cifts/npfl114/2016/sutton-bookdraft2016sep.pdf

họ mô tả thuật toán.

Tôi có thể hiểu rằng bạn muốn cập nhật diễn viên bằng cách kết hợp thông tin về giá trị nhà nước (được xác định bởi nhà phê bình). Điều này được thực hiện thông qua giá trị của kết hợp thông tin đã nói, nhưng tôi không hiểu tại sao nó nhìn vào độ dốc của hàm giá trị trạng thái? $\delta$

Tôi không nên nhìn vào độ dốc của một số chức năng khách quan mà tôi đang tìm cách giảm thiểu? Trước đó, trong chương này, ông nói rằng chúng ta có thể coi hiệu suất của chính sách đơn giản là hàm giá trị của nó, trong trường hợp nào là tất cả những gì chúng ta đang làm chỉ là điều chỉnh các tham số theo hướng tối đa hóa giá trị của từng trạng thái? Tôi nghĩ rằng điều đó đáng lẽ phải được thực hiện bằng cách điều chỉnh chính sách, chứ không phải bằng cách thay đổi cách chúng ta đánh giá một trạng thái.

Cảm ơn

machine-learning reinforcement-learning actor-critic

— cố gắng học
nguồn

liên kết là chết. vui lòng sửa nó hoặc tải lên nội dung liên quan

— Gulzar

Trước tiên chúng ta hãy cố gắng xây dựng một sự hiểu biết vững chắc về ý nghĩa của . Có thể bạn biết tất cả những điều này, nhưng theo tôi thì thật tốt khi vượt qua nó. $\delta$

$\delta \gets R + \gamma \hat{v}(S', w) - \hat{v}(S, w)$

Hãy bắt đầu với thuật ngữ . Thuật ngữ đó là giá trị của trạng thái , theo ước tính của nhà phê bình theo tham số hóa hiện tại . Giá trị trạng thái này về cơ bản là tổng chiết khấu của tất cả các phần thưởng mà chúng tôi mong đợi nhận được từ thời điểm này trở đi. $\hat{v}(S, w)$ $S$ $w$

$\hat{v}(S', w)$ có ý nghĩa rất giống nhau, với sự khác biệt duy nhất là giá trị của trạng thái tiếp theo thay vì trạng thái trước đó . Nếu chúng ta giảm giá này bằng cách nhân với và thêm phần thưởng được quan sát vào nó, chúng ta sẽ có được phần bên phải của phương trình trước dấu trừ: . Điều này về cơ bản có cùng ý nghĩa với (nó là ước tính giá trị của trạng thái trước đó ), nhưng lần này nó dựa trên một số thông tin mới được quan sát ( $S'$ $S$ $\gamma$ $R$ $R + \gamma \hat{v}(S', w)$ $\hat{v}(S, w)$ $S$ $R$ ) và ước tính giá trị của trạng thái tiếp theo, thay vì chỉ là ước tính của toàn bộ trạng thái.

Vì vậy, là sự khác biệt giữa hai cách khác nhau để ước tính chính xác cùng một giá trị, với một phần (bên trái của dấu trừ) được dự đoán là ước tính đáng tin cậy hơn một chút vì dựa trên một chút thông tin được biết là chính xác ( ). $\delta$ $R$

$\delta$ là tích cực nếu quá trình chuyển đổi từ sang mang lại phần thưởng lớn hơn so với nhà phê bình dự kiến và tiêu cực nếu nó nhỏ hơn nhà phê bình dự kiến (dựa trên tham số hóa hiện tại ). $S$ $S'$ $R$ $w$

Tôi không nên nhìn vào độ dốc của một số chức năng khách quan mà tôi đang tìm cách giảm thiểu? Trước đó, trong chương này, ông nói rằng chúng ta có thể coi hiệu suất của chính sách đơn giản là hàm giá trị của nó, trong trường hợp nào là tất cả những gì chúng ta đang làm chỉ là điều chỉnh các tham số theo hướng tối đa hóa giá trị của từng trạng thái? Tôi nghĩ rằng điều đó đáng lẽ phải được thực hiện bằng cách điều chỉnh chính sách, chứ không phải bằng cách thay đổi cách chúng ta đánh giá một trạng thái.

Vâng, điều này nên được thực hiện, và đây chính xác là những gì được thực hiện bởi dòng sau:

$\theta \gets \theta + \alpha I \delta \nabla_\theta \log \pi(A \mid S, \theta)$

Tuy nhiên, đó không phải là điều duy nhất chúng tôi muốn cập nhật.

Tôi có thể hiểu rằng bạn muốn cập nhật diễn viên bằng cách kết hợp thông tin về giá trị nhà nước (được xác định bởi nhà phê bình). Điều này được thực hiện thông qua giá trị kết hợp thông tin đã nói, nhưng tôi không hiểu tại sao nó nhìn vào độ dốc của hàm giá trị trạng thái?

Chúng tôi C toNG muốn làm điều này, bởi vì nhà phê bình được cho là luôn đưa ra ước tính tốt nhất có thể về giá trị nhà nước. Nếu là khác không, điều này có nghĩa là chúng tôi đã phạm sai lầm trong nhà phê bình, vì vậy chúng tôi cũng muốn cập nhật nhà phê bình để trở nên chính xác hơn. $\delta$

— Dennis Soemers
nguồn

Đúng vậy, vì vậy, bản cập nhật phê bình không thực sự liên quan đến việc điều chỉnh để đưa ra giá trị "cao nhất" cho mỗi trạng thái, mà là điều chỉnh để đưa ra ước tính tốt nhất có thể và làm như vậy, đó là "nhà phê bình" tốt nhất cho mô hình. Cảm ơn đã làm cho điều này rất rõ ràng! Chìa khóa của họ là sự hiểu lầm của tôi về như bạn đã giải thích.

δ

$\delta$

— gắng học hỏi