Là một chính sách luôn luôn xác định trong học tập củng cố?

Trong học tập củng cố, một chính sách luôn luôn mang tính quyết định, hay nó là một phân phối xác suất qua các hành động (từ đó chúng ta lấy mẫu)? Nếu chính sách này là xác định, tại sao không phải là chức năng giá trị, được quy định tại một nhà nước đưa ra cho một cho chính sách $\pi$ như sau

V^{π} (S) = = E [\underset{t > 0}{Σ} γ^{t} r_{t} | S_{0} = = S, π]

$V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right]$

một điểm đầu ra?

Trong định nghĩa trên, chúng tôi có một kỳ vọng. Kỳ vọng này là gì?

Một chính sách có thể dẫn đến các tuyến đường khác nhau?

reinforcement-learning deterministic-policy stochastic-policy

— MiloMinderbinder
nguồn

Một câu hỏi liên quan trên StackOverflow: stackoverflow.com/q/46260775/712995

— Maxim

Có nhiều câu hỏi ở đây: 1. Chính sách có luôn mang tính quyết định không? 2. Nếu chính sách mang tính xác định thì giá trị cũng không phải là xác định? 3. Kỳ vọng trong ước tính hàm giá trị là gì? Câu hỏi cuối cùng của bạn không rõ ràng "Chính sách có thể dẫn đến các tuyến đường có các giá trị hiện tại khác nhau không?" nhưng tôi nghĩ ý bạn là: 4. Chính sách có thể dẫn đến các tuyến khác nhau không?

Chính sách là một chức năng có thể là xác định hoặc ngẫu nhiên. Nó ra lệnh hành động nào được đưa ra một trạng thái cụ thể. Phân phối được sử dụng cho chính sách ngẫu nhiên và hàm ánh xạ được sử dụng cho chính sách xác định, trong đó là tập hợp các trạng thái có thể và là tập hợp các hành động có thể. $\pi(a\mid s)$ $\pi:S \rightarrow A$ $S$ $A$
Hàm giá trị không xác định. Giá trị (của một trạng thái) là phần thưởng dự kiến nếu bạn bắt đầu ở trạng thái đó và tiếp tục tuân theo chính sách. Ngay cả khi chính sách mang tính quyết định, chức năng phần thưởng và môi trường có thể không.
Kỳ vọng trong công thức đó là trên tất cả các tuyến đường có thể bắt đầu từ trạng thái . Thông thường, các tuyến đường hoặc đường dẫn được phân tách thành nhiều bước, được sử dụng để đào tạo các công cụ ước tính giá trị. Các bước này có thể được biểu diễn bằng tuple (trạng thái, hành động, phần thưởng, trạng thái tiếp theo) $s$ $(s,a,r,s')$
Điều này có liên quan đến câu trả lời 2, chính sách có thể dẫn đến các đường dẫn khác nhau (thậm chí là chính sách xác định) vì môi trường thường không mang tính quyết định.

— QUẢNG CÁO
nguồn

bạn có thể cho tôi một ví dụ về môi trường không mang tính quyết định? như tôi thấy, nếu tác nhân áp dụng hành động

cho một môi trường ở trạng thái

, thì nó sẽ thay đổi hoàn toàn môi trường thành

a

$a$

s

$s$

s^{‘}

$s^`$

— MiloMinderbinder

Một ví dụ cổ điển là một robot có các bước di chuyển trái một bước (hành động) nhưng bề mặt thì trơn trượt (đi trên băng) nên nó thực sự di chuyển 2 bước còn lại. Trong thực tế môi trường như vậy là tiêu chuẩn và nghiên cứu rộng rãi. Ví dụ của tôi thực sự là môi trường "đồ chơi" nổi tiếng: gym.openai.com/envs/F FrozenLake

— AD

nên trạng thái

và hành động

s

$s$

khi nó dẫn đến một quận prob qua

. tôi hiểu đúng chưa?

a

$a$

s^{‘}

$s^`$

— MiloMinderbinder

Vâng, giống như

là ngẫu nhiên,

p (a ∣ s)

$p(a\mid s)$

cũng là ngẫu nhiên.

p (s^{'} ∣ s, a)

$p(s' \mid s, a)$

— AD

chỉ hai điều nữa: 1.

là ngẫu nhiên trong chính sách ngẫu nhiên phải không? 2. Bạn có thể xác nhận câu trả lời khác được đăng là sai về những gì kỳ vọng được thực hiện một phần để tôi có thể chấp nhận câu trả lời của bạn không?

p (a | s)

$p(a|s)$

— MiloMinderbinder

Các chính sách có thể là ngẫu nhiên hoặc xác định. Các kỳ vọng là trên các ví dụ đào tạo cho các điều kiện. Hàm giá trị là ước tính lợi nhuận, đó là lý do tại sao nó là một kỳ vọng.

— Neil G
nguồn