Tại sao đường cơ sở có điều kiện về trạng thái tại một số dấu thời gian không thiên vị?


9

Trong chế tạo robot, kỹ thuật học tăng cường được sử dụng để tìm ra mẫu điều khiển cho robot. Thật không may, hầu hết phương pháp độ dốc chính sách đều sai lệch về mặt thống kê có thể khiến robot gặp tình huống không an toàn, xem trang 2 trong Jan Peters và Stefan Schaal: Học tăng cường kỹ năng vận động với độ dốc chính sách, 2008

Với học tập nguyên thủy của động cơ, có thể khắc phục vấn đề vì tối ưu hóa tham số độ dốc chính sách hướng các bước học tập vào mục tiêu.

quote: Triệu Nếu ước tính độ dốc không thiên vị và tỷ lệ học tập hoàn thành tổng (a) = 0 thì quá trình học được đảm bảo hội tụ đến ít nhất một mức tối thiểu cục bộ [...] Do đó, chúng tôi chỉ cần ước tính độ dốc chính sách từ dữ liệu được tạo trong quá trình thực hiện một nhiệm vụ. Tập (trang 4 của cùng một bài)

Trong bài tập về nhà cho lớp Berkeley RL Bài toán 1, nó yêu cầu bạn chỉ ra rằng độ dốc chính sách vẫn không thiên vị nếu đường cơ sở bị trừ là một hàm của trạng thái tại dấu thời gian.

θt=1TE(st,at)p(st,at)[b(st)]=0

Tôi đang vật lộn qua bước đầu tiên của một bằng chứng như vậy có thể là gì. Ai đó có thể chỉ cho tôi đi đúng hướng? Suy nghĩ ban đầu của tôi là bằng cách nào đó sử dụng luật tổng kỳ vọng để làm cho kỳ vọng của b (st) có điều kiện trên T, nhưng tôi không chắc chắn. Cảm ơn trước :)

liên kết đến png gốc của phương trình


Chào mừng bạn đến với SE: AI! (Tôi đã tự do chuyển đổi phương trình sang MathJax. Bản gốc .png được liên kết ở phía dưới.)
DukeZhou

2
Đừng thực sự có nhiều thời gian để viết ra các phương trình chính xác và định dạng nó (có thể sau này nếu nó vẫn chưa được trả lời) với LaTeX nhưng đây là một gợi ý. Bạn muốn có tổng đó không phụ thuộc vào chính sách sao cho đạo hàm sẽ bằng 0. Vì vậy, bằng cách nào đó bạn cố gắng diễn đạt mọi thứ bằng cách sử dụng chính sách p (s, a). Câu trả lời btw cũng có thể được tìm thấy trong cuốn sách Giới thiệu RL của Sutton trong chương gradient chính sách.
Hải Nguyên

1
Cảm ơn rât nhiều! Tôi sẽ sử dụng gợi ý đó để bắt đầu, cũng như cảm ơn bạn đã cho tôi biết về nó trong Sutton RL. Tôi đang đọc cuốn sách đó và nó khá xuất sắc!
Laura C

@LauraC nếu bạn tìm thấy câu trả lời trước bất kỳ ai khác, vui lòng quay lại và đăng dưới dạng câu trả lời chính thức tại đây (mọi người chắc chắn thích câu hỏi này :)
DukeZhou

Tôi đã thêm thông tin ngữ cảnh cho câu hỏi.
Manuel Rodriguez

Câu trả lời:


6

Sử dụng luật của những kỳ vọng lặp đi lặp lại, người ta có:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

được viết bằng tích phân và di chuyển gradient bên trong (tuyến tính) mà bạn nhận được

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

bây giờ bạn có thể di chuyển (do tuyến tính) và (không phụ thuộc vào ) tạo thành tích phân bên trong với bên ngoài:θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) là hàm mật độ xác suất (có điều kiện), do đó tích hợp trên tất cả cho trạng thái cố định đã cho bằng :atst1

=t=1Tstp(st)b(st)θ1dst=

Bây giờ , kết luận bằng chứng.θ1=0


1

Có vẻ như bài tập về nhà là do hai ngày trước bài viết của câu trả lời này, nhưng trong trường hợp nó vẫn có liên quan theo một cách nào đó, các ghi chú lớp có liên quan (sẽ hữu ích nếu được cung cấp trong câu hỏi cùng với bài tập về nhà) ở đây .

Trường hợp đầu tiên của kỳ vọng được đặt vào học sinh là: "Vui lòng hiển thị phương trình 12 bằng cách sử dụng luật kỳ vọng lặp lại, phá vỡ bằng cách tách rời hành động trạng thái cận biên từ phần còn lại của quỹ đạo. " Phương trình 12 là thế này.Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

Các ghi chú lớp xác định là biên hành động trạng thái. Nó không phải là một bằng chứng tìm kiếm, nhưng một chuỗi các bước đại số để thực hiện việc tách rời và cho thấy mức độ độc lập của biên hành động nhà nước có thể đạt được.πθ(at|st)

Bài tập này là sự chuẩn bị cho bước tiếp theo trong bài tập về nhà và chỉ rút ra khi xem lại CS189, khóa học Giới thiệu về Machine Learning của Bur siêu, không có Luật Kỳ vọng trong giáo trình hoặc ghi chú lớp học.

Tất cả các thông tin liên quan nằm trong liên kết trên để ghi chú lớp và chỉ yêu cầu đại số trung gian.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.