Tại sao tỷ lệ chiết khấu trong thuật toán REINFORCE xuất hiện hai lần?


11

Tôi đang đọc cuốn sách Củng cố học tập: Giới thiệu của Richard S. Sutton và Andrew G. Barto (bản thảo hoàn chỉnh, ngày 5 tháng 11 năm 2017).

Trên trang 271, mã giả cho Phương pháp Gradient chính sách Monte-Carlo được trình bày. Nhìn vào mã giả này tôi không thể hiểu tại sao dường như tỷ lệ chiết khấu xuất hiện 2 lần, một lần ở trạng thái cập nhật và lần thứ hai trong vòng hoàn vốn. [Xem hình bên dưới]

nhập mô tả hình ảnh ở đây

Có vẻ như sự trở lại của các bước sau bước 1 chỉ là một sự cắt ngắn của sự trở lại của bước đầu tiên. Ngoài ra, nếu bạn chỉ xem một trang ở trên trong cuốn sách, bạn sẽ tìm thấy một phương trình chỉ với 1 tỷ lệ chiết khấu (trang bên trong lợi nhuận.)

Tại sao sau đó mã giả dường như khác nhau? Tôi đoán là tôi đang hiểu nhầm điều gì đó:

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

Câu trả lời:


5

Yếu tố giảm giá xuất hiện hai lần, và điều này là chính xác.

Điều này là do hàm bạn đang cố gắng tối đa hóa trong REINFORCE cho một vấn đề theo tầng (bằng cách lấy độ dốc) là lợi nhuận mong đợi từ trạng thái bắt đầu (phân phối) nhất định:

J(θ)= =Eπ(θ)[Gt|St= =S0,t= =0]

G1G2γ= =0

J(θ)γt


5

γt

Tôi chỉ muốn làm rõ thêm rằng bạn dường như không hiểu lầm gì cả, phương trình (13.6) trong cuốn sách thực sự khác với mã giả .

Bây giờ, tôi không có phiên bản của cuốn sách mà bạn đã đề cập ngay tại đây, nhưng tôi có một bản thảo sau đó từ ngày 22 tháng 3 năm 2018 và văn bản về chủ đề cụ thể này dường như tương tự. Trong phiên bản này:

  • γ= =1
  • Bằng chứng đó cuối cùng dẫn đến cùng một phương trình (13.6) trên trang 329.
  • γ= =1
  • γ<1

2
Cảm ơn. Giải thích về điểm thứ ba của bạn đã bị thiếu trong dự thảo năm 2017.
Diego Orellana

2
@DiegoOrellana Tôi không thể tìm thấy liên kết đến bản nháp ngày 22 tháng 3 nữa, dường như có một bản nháp thậm chí muộn hơn (không thể tìm thấy một ngày được đề cập) ở đây . Phiên bản này thực sự có bìa lạ mắt, vì vậy nó thậm chí có thể là phiên bản cuối cùng chứ không phải là bản nháp. Nếu liên kết bị hỏng trong tương lai, tôi nghi ngờ một liên kết mới sẽ được cung cấp ở đây .
Dennis Soemers

3

Đó là một vấn đề tinh tế.

Nếu bạn nhìn vào thuật toán A3C trong bài báo gốc (tr.4 và phụ lục S3 cho mã giả), thuật toán phê bình diễn viên của họ (cùng một thuật toán cả hai vấn đề về tình tiết và tiếp diễn) sẽ bị tắt bởi một yếu tố gamma so với diễn viên- nhà phê bình mã giả cho các vấn đề về tình tiết trong cuốn sách Sutton và Barto (tr.332 tháng 1 năm 2019 của http://incompleteideas.net/book/the-book.html ). Cuốn sách Sutton và Barto có thêm gamma "đầu tiên" như được dán nhãn trong ảnh của bạn. Vì vậy, hoặc cuốn sách hoặc giấy A3C là sai? Không hẳn vậy.

Chìa khóa là trên p. 199 cuốn sách Sutton và Barto:

Nếu có chiết khấu (gamma <1) thì nên coi đó là một hình thức chấm dứt, có thể được thực hiện đơn giản bằng cách bao gồm một yếu tố trong nhiệm kỳ thứ hai của (9.2).

Vấn đề tinh tế là có hai cách hiểu về yếu tố giảm giá gamma:

  1. Một yếu tố nhân mà đặt ít trọng lượng hơn vào phần thưởng tương lai xa.
  2. Một xác suất, 1 - gamma, rằng một quỹ đạo mô phỏng chấm dứt một cách đột ngột, bất cứ lúc nào. Giải thích này chỉ có ý nghĩa đối với các trường hợp tình tiết, và không tiếp tục các trường hợp.

Thực hiện nghĩa đen:

  1. Chỉ cần nhân các phần thưởng trong tương lai và số lượng liên quan (V hoặc Q) trong tương lai bằng gamma.
  2. Mô phỏng một số quỹ đạo và chấm dứt ngẫu nhiên (1 - gamma) của chúng tại mỗi bước thời gian. Quỹ đạo chấm dứt không đưa ra phần thưởng ngay lập tức hoặc trong tương lai.

Glnπ(một|S)

Ví dụ, nếu bạn đang ở bước t = 2 và gamma = 0.9, thuật toán cho việc giải thích thứ hai là chính sách gradient là γ2Glnπ(một|S)0,81Glnπ(một|S)

Glnπ(một|S)G

Bạn có thể chọn bất kỳ cách giải thích nào về gamma, nhưng bạn phải chú ý đến hậu quả của thuật toán. Cá nhân tôi thích gắn bó với giải thích 1 chỉ vì nó đơn giản hơn. Vì vậy, tôi sử dụng thuật toán trong bài báo A3C, không phải cuốn sách Sutton và Barto.

Câu hỏi của bạn là về thuật toán REINFORCE, nhưng tôi đã thảo luận về nhà phê bình diễn viên. Bạn có cùng một vấn đề chính xác liên quan đến hai cách hiểu gamma và gamma phụ trong REINFORCE.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.