Toán tử Bellman trong học tăng cường là gì?

Trong toán học, toán tử từ có thể đề cập đến một số khái niệm riêng biệt nhưng có liên quan. Một toán tử có thể được định nghĩa là một hàm giữa hai không gian vectơ, nó có thể được định nghĩa là một hàm trong đó miền và tên miền giống nhau hoặc có thể được định nghĩa là một hàm từ các hàm (là vectơ) đến các hàm khác (cho ví dụ, toán tử vi phân ), nghĩa là một hàm bậc cao (nếu bạn quen thuộc với lập trình hàm).

Là gì hành Bellman trong học tăng cường (RL)? Tại sao chúng ta thậm chí cần nó? Toán tử Bellman liên quan đến các phương trình Bellman trong RL như thế nào?

reinforcement-learning terminology math

— nbro
nguồn

Một vài bài viết liên quan đến chủ đề này là Phương pháp dựa trên tính năng cho lập trình động quy mô lớn (của John N. Tsitsiklis và Benjamin Van Roy, 1996), Phân tích về học tập khác biệt tạm thời với xấp xỉ chức năng (của John N. Tsitsiklis và Benjamin Van Roy, 1997) và Lặp lại chính sách tối thiểu (của Michail G. Lagoudakis và Ronald Parr, 2003).

— nbro

Một vài tài liệu liên quan khác mà tôi tìm thấy là Quy trình quyết định Markov tổng quát: Thuật toán học lập trình động và tăng cường (của Csaba Szepesvári và Michael L. Littman, 1997) và

-MDPs: Học về môi trường khác nhau

ϵ

$\epsilon$ (của István Szita , András Lörincz, 2002).

— nbro

Ký hiệu tôi sẽ sử dụng là từ hai bài giảng khác nhau của David Silver và cũng được thông báo bởi các slide này .

Phương trình Bellman dự kiến là

\begin{matrix} (1) & v_{π} (S) = = \underset{một \in Một}{Σ} π (một | S) (R_{S}^{một} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{π} (s^{'})) \end{matrix}

$v_\pi(s) = \sum_{a\in \cal{A}} \pi(a|s) \left(\cal{R}_s^a + \gamma\sum_{s' \in \cal{S}} \cal{P}_{ss'}^a v_\pi(s')\right) \tag 1$

Nếu chúng ta để cho

\begin{matrix} (2) & P_{s s^{'}}^{π} = \sum_{a \in Một} π (một | S) P_{S S^{'}}^{một} \end{matrix}

$\cal{P}_{ss'}^\pi = \sum\limits_{a \in \cal{A}} \pi(a|s)\cal{P}_{ss'}^a \tag 2$ và

\begin{matrix} (3) & R_{S}^{π} = = \underset{một \in Một}{Σ} π (một | S) R_{S}^{một} \end{matrix}

$\cal{R}_{s}^\pi = \sum\limits_{a \in \cal{A}} \pi(a|s)\cal{R}_{s}^a \tag 3$ sau đó chúng ta có thể viết lại

(1)

$(1)$ như

\begin{matrix} (4) & v_{π} (S) = = R_{S}^{π} + γ \underset{S^{'} \in S}{Σ} P_{S S^{'}}^{π} v_{π} (S^{'}) \end{matrix}

$v_\pi(s) = \cal{R}_s^\pi + \gamma\sum_{s' \in \cal{S}} \cal{P}_{ss'}^\pi v_\pi(s') \tag 4$

Điều này có thể được viết dưới dạng ma trận

\begin{matrix} (5) & [\begin{matrix} v_{π} (1) \\ ⋮ \\ v_{π} (n) \end{matrix}] = = [\begin{matrix} R_{1}^{π} \\ ⋮ \\ R_{n}^{π} \end{matrix}] + γ [\begin{matrix} P_{11}^{π} & Giáo dục & P_{1 n}^{π} \\ ⋮ & ⋱ & ⋮ \\ P_{n 1}^{π} & Giáo dục & P_{n n}^{π} \end{matrix}] [\begin{matrix} v_{π} (1) \\ ⋮ \\ v_{π} (n) \end{matrix}] \end{matrix}

$\left. \begin{bmatrix} v_\pi(1) \\ \vdots \\ v_\pi(n) \end{bmatrix}= \begin{bmatrix} \cal{R}_1^\pi \\ \vdots \\ \cal{R}_n^\pi \end{bmatrix} +\gamma \begin{bmatrix} \cal{P}_{11}^\pi & \dots & \cal{P}_{1n}^\pi\\ \vdots & \ddots & \vdots\\ \cal{P}_{n1}^\pi & \dots & \cal{P}_{nn}^\pi \end{bmatrix} \begin{bmatrix} v_\pi(1) \\ \vdots \\ v_\pi(n) \end{bmatrix} \right. \tag 5$

Hoặc, gọn hơn,

\begin{matrix} (6) & v_{π} = = R^{π} + γ P^{π} v_{π} \end{matrix}

$v_\pi = \cal{R}^\pi + \gamma \cal{P}^\pi v_\pi \tag 6$

$(6)$ $n$ $n=|\cal{S}|$ $\cal{T}^\pi:\mathbb{R}^n\to\mathbb{R}^n$

\begin{matrix} (7) & T^{π} (v) = R^{π} + γ P^{π} v \end{matrix}

$\cal{T^\pi}(v) = \cal{R}^\pi + \gamma \cal{P}^\pi v \tag 7$

$v\in \mathbb{R}^n$

Tương tự, bạn có thể viết lại phương trình tối ưu Bellman

\begin{matrix} (8) & v_{*} (s) = max_{a \in A} (R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{*} (s^{'})) \end{matrix}

$v_*(s) = \max_{a\in\cal{A}} \left(\cal{R}_s^a + \gamma\sum_{s' \in \cal{S}} \cal{P}_{ss'}^a v_*(s')\right) \tag 8$

as the Bellman optimality operator

\begin{matrix} (9) & T^{*} (v) = max_{a \in A} (R^{a} + γ P^{a} v) \end{matrix}

$\cal{T^*}(v) = \max_{a\in\cal{A}} \left(\cal{R}^a + \gamma \cal{P}^a v\right) \tag 9$

The Bellman operators are "operators" in that they are mappings from one point to another within the vector space of state values, $\mathbb{R}^n$ .

Rewriting the Bellman equations as operators is useful for proving that certain dynamic programming algorithms (e.g. policy iteration, value iteration) converge to a unique fixed point. This usefulness comes in the form of a body of existing work in operator theory, which allows us to make use of special properties of the Bellman operators.

Specifically, the fact that the Bellman operators are contractions gives the useful results that, for any policy $\pi$ and any initial vector $v$ ,

\begin{matrix} (10) & lim_{k \to \infty} (T^{π})^{k} v = v_{π} \end{matrix}

$\lim_{k\to\infty}(\cal{T}^\pi)^k v = v_\pi \tag{10}$

\begin{matrix} (11) & lim_{k \to \infty} (T^{*})^{k} v = v_{*} \end{matrix}

$\lim_{k\to\infty}(\cal{T}^*)^k v = v_* \tag{11}$

where $v_\pi$ is the value of policy $\pi$ and $v_*$ is the value of an optimal policy $\pi^*$ . The proof is due to the contraction mapping theorem.

— Philip Raeisghasem
nguồn