Làm cách nào để khớp trọng số vào các giá trị Q với xấp xỉ hàm tuyến tính


12

Trong học tăng cường, xấp xỉ hàm tuyến tính thường được sử dụng khi có không gian trạng thái lớn. (Khi tra cứu bảng trở nên không khả thi.)

Dạng của giá trị với xấp xỉ hàm tuyến tính được cho bởiQ

Q(s,a)=w1f1(s,a)+w2f2(s,a)+,

trong đó là các trọng số và là các tính năng.wifi

Các tính năng được xác định trước bởi người dùng. Câu hỏi của tôi là, trọng lượng được chỉ định như thế nào?

Tôi đã đọc / tải xuống một số slide bài giảng về learning với chức năng gần đúng. Hầu hết trong số họ có slide về hồi quy tuyến tính theo sau. Vì chúng chỉ là slide, nên chúng có xu hướng không hoàn chỉnh. Tôi tự hỏi những gì kết nối / mối quan hệ giữa hai chủ đề.Q

Câu trả lời:


11

Xấp xỉ hàm về cơ bản là một vấn đề hồi quy (theo nghĩa chung, nghĩa là trái ngược với phân loại trong đó lớp rời rạc), tức là người ta cố gắng học ánh xạ hàm từ đầu vào (trong trường hợp của bạn ) thành giá trị thực đầu ra . Vì chúng tôi không có bảng đầy đủ tất cả các giá trị đầu vào / đầu ra, nhưng thay vào đó, hãy tìm hiểu và ước tính cùng một lúc, các tham số (ở đây: trọng số ) không thể được tính trực tiếp từ dữ liệu. Một cách tiếp cận phổ biến ở đây là sử dụng độ dốc gốc .f(s,a)Q(s,a)Q(s,a)w

Dưới đây là thuật toán chung để học với xấp xỉ hàm giá trịQ(s,a)

  • Ban đầu tham số-vector ngẫu nhiên (ví dụ: trong [0,1])w=(w1,w2,....,wn)
  • Đối với mỗi tập phim:

    1. s tình trạng ban đầu bên trái của tập
    2. a hành động bên trái được đưa ra bởi chính sách (khuyến nghị: tham lam)πϵ
    3. Hãy hành động , quan sát phần thưởng và trạng thái tiếp theoars
    4. ww+α(r+γmaxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    Lặp lại 2-5 cho đến khi là thiết bị đầu cuốis

Ở đâu ...

  • α[0,1] là tốc độ học tập
  • γ[0,1] là tỷ lệ chiết khấu
  • maxaQ(s,a) là hành động ở trạng thái tối đa hóaasQ(s,a)
  • wQ(s,a) là độ dốc của trong . Trong trường hợp tuyến tính của bạn, gradient chỉ đơn giản là một vectơQ(s,a)w(f1(s,a),...,fn(s,a))

Các thông số / trọng số-cập nhật (bước 4) có thể được đọc theo cách như sau:

  • (r+γmaxaQ(s,a))(Q(s,a)) là lỗi giữa dự đoán và giá trị "thực tế" cho , đó là phần thưởng nhận được bây giờ CỘNG phần thưởng được mong đợi, được giảm giá theo chính sách tham lam sau đóQ(s,a)Q(s,a)r γmaxaQ(s,a)
  • Vì vậy, tham số / vectơ trọng lượng được chuyển sang hướng dốc nhất (được đưa ra bởi gradient ) theo số lượng lỗi đo được, được điều chỉnh bởi .wQ(s,a)α

Nguồn chính:

Chương 8 Giá trị gần đúng của cuốn sách (khuyến nghị chung) Học tập củng cố: Giới thiệu của Sutton và Barto (Ấn bản đầu tiên). Thuật toán chung đã được sửa đổi vì nó thường được thực hiện để tính thay vì . Tôi cũng đã bỏ dấu vết đủ điều kiện để tập trung vào gradient descent, do đó chỉ sử dụng một bước-sao lưuQ(s,a)V(s)e

Tham khảo thêm


2
Liên kết bị hỏng cho Barto & Sutton! Bây giờ ở đây -> unsleteideas.net/book/the-book.html :) và như ebook không đầy
đủideas.net / book /

1
Không phải độ dốc của Q (s, a) liên quan đến vectơ cột wa trong đó mỗi phần tử là fi (s, a), thay vì là tổng của tất cả các fi như bạn đã nói? Mục tiêu là mỗi trọng số được thay đổi tương ứng với giá trị của tính năng mà nó được nhân lên.
Miguel Saraiva

@MiguelSaraiva Vâng, đã sửa nó. Cảm ơn rât nhiều.
steffen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.