Toán tử Bellman trong học tăng cường là gì?


10

Trong toán học, toán tử từ có thể đề cập đến một số khái niệm riêng biệt nhưng có liên quan. Một toán tử có thể được định nghĩa là một hàm giữa hai không gian vectơ, nó có thể được định nghĩa là một hàm trong đó miền và tên miền giống nhau hoặc có thể được định nghĩa là một hàm từ các hàm (là vectơ) đến các hàm khác (cho ví dụ, toán tử vi phân ), nghĩa là một hàm bậc cao (nếu bạn quen thuộc với lập trình hàm).

Là gì hành Bellman trong học tăng cường (RL)? Tại sao chúng ta thậm chí cần nó? Toán tử Bellman liên quan đến các phương trình Bellman trong RL như thế nào?


Một vài bài viết liên quan đến chủ đề này là Phương pháp dựa trên tính năng cho lập trình động quy mô lớn (của John N. Tsitsiklis và Benjamin Van Roy, 1996), Phân tích về học tập khác biệt tạm thời với xấp xỉ chức năng (của John N. Tsitsiklis và Benjamin Van Roy, 1997) và Lặp lại chính sách tối thiểu (của Michail G. Lagoudakis và Ronald Parr, 2003).
nbro

Một vài tài liệu liên quan khác mà tôi tìm thấy là Quy trình quyết định Markov tổng quát: Thuật toán học lập trình động và tăng cường (của Csaba Szepesvári và Michael L. Littman, 1997) và -MDPs: Học về môi trường khác nhauε (của István Szita , András Lörincz, 2002).
nbro

Câu trả lời:


10

Ký hiệu tôi sẽ sử dụng là từ hai bài giảng khác nhau của David Silver và cũng được thông báo bởi các slide này .

Phương trình Bellman dự kiến là

(1)vπ(S)= =ΣmộtMộtπ(một|S)(RSmột+γsSPssavπ(s))

Nếu chúng ta để cho

(2)Pssπ=aMộtπ(một|S)PSS'một
(3)RSπ= =ΣmộtMộtπ(một|S)RSmột
sau đó chúng ta có thể viết lại (1) như

(4)vπ(S)= =RSπ+γΣS'SPSS'πvπ(S')

Điều này có thể được viết dưới dạng ma trận

(5)[vπ(1)vπ(n)]= =[R1πRnπ]+γ[P11πGiáo dụcP1nπPn1πGiáo dụcPnnπ][vπ(1)vπ(n)]

Hoặc, gọn hơn,

(6)vπ= =Rπ+γPπvπ

(6)nn=|S|Tπ:RnRn

(7)Tπ(v)=Rπ+γPπv

vRn

Tương tự, bạn có thể viết lại phương trình tối ưu Bellman

(8)v(s)=maxaA(Rsa+γsSPssav(s))

as the Bellman optimality operator

(9)T(v)=maxaA(Ra+γPav)

The Bellman operators are "operators" in that they are mappings from one point to another within the vector space of state values, Rn.

Rewriting the Bellman equations as operators is useful for proving that certain dynamic programming algorithms (e.g. policy iteration, value iteration) converge to a unique fixed point. This usefulness comes in the form of a body of existing work in operator theory, which allows us to make use of special properties of the Bellman operators.

Specifically, the fact that the Bellman operators are contractions gives the useful results that, for any policy π and any initial vector v,

(10)limk(Tπ)kv=vπ

(11)limk(T)kv=v

where vπ is the value of policy π and v is the value of an optimal policy π. The proof is due to the contraction mapping theorem.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.