Các chức năng khen thưởng mô tả cách các tác nhân "nên" hành xử. Nói cách khác, họ có nội dung "quy chuẩn", quy định những gì bạn muốn đại lý thực hiện. Ví dụ, một số phần thưởng nhà nước S có thể đại diện cho hương vị của thức ăn. Hoặc có lẽ, ( s , a ) có thể đại diện cho hành động nếm thức ăn. Vì vậy, trong phạm vi chức năng phần thưởng quyết định động lực của đại lý là gì, vâng, bạn phải làm cho nó thành!
Không có hạn chế tuyệt đối, nhưng nếu chức năng phần thưởng của bạn là "cư xử tốt hơn", nhân viên sẽ học tốt hơn. Thực tế, điều này có nghĩa là tốc độ hội tụ và không bị kẹt trong cực tiểu địa phương. Nhưng thông số kỹ thuật hơn nữa sẽ phụ thuộc mạnh mẽ vào các loại học tăng cường bạn đang sử dụng. Ví dụ, không gian trạng thái / hành động liên tục hay rời rạc? Là thế giới hoặc lựa chọn hành động ngẫu nhiên? Là phần thưởng liên tục được thu hoạch, hoặc chỉ vào cuối?
Một cách để xem vấn đề là hàm phần thưởng xác định độ cứng của vấn đề. Ví dụ, theo truyền thống, chúng tôi có thể chỉ định một trạng thái duy nhất được khen thưởng:
R ( s1) = 1
R ( s2 .. n) = 0
Trong trường hợp này, vấn đề cần giải quyết là khá khó, so với, giả sử, R ( sTôi) = 1 / i2 , trong đó có độ dốc phần thưởng trên các trạng thái. Đối với các vấn đề khó, chỉ định chi tiết hơn, ví dụ R ( s , a ) hoặc R ( s , a , s') có thể giúp một số thuật toán bằng cách cung cấp những manh mối thêm, nhưng có khả năng tại các chi phí của yêu cầu thăm dò nhiều hơn nữa. Bạn cũng có thể cần bao gồm các chi phí dưới dạng các thuật ngữ phủ định trongR (ví dụ:chi phí năng lượng), để làm cho vấn đề được chỉ định rõ.
Đối với trường hợp không gian trạng thái liên tục, nếu bạn muốn một tác nhân học dễ dàng, chức năng phần thưởng phải liên tục và khác biệt . Vì vậy, đa thức có thể hoạt động tốt cho nhiều thuật toán. Hơn nữa, cố gắng loại bỏ cực tiểu cục bộ. Có một số ví dụ về cách KHÔNG tạo hàm thưởng - như hàm Rastrigin . Đã nói điều này, một số thuật toán RL (ví dụ máy Boltzmann ) có phần mạnh mẽ đối với những thuật toán này.
Nếu bạn đang sử dụng RL để giải quyết vấn đề trong thế giới thực, có lẽ bạn sẽ thấy rằng mặc dù việc tìm kiếm chức năng phần thưởng là phần khó nhất của vấn đề, nhưng nó gắn chặt với cách bạn chỉ định không gian trạng thái . Ví dụ, trong một vấn đề phụ thuộc vào thời gian, khoảng cách đến mục tiêu thường làm cho chức năng phần thưởng kém (ví dụ như trong vấn đề xe leo núi ). Những tình huống như vậy có thể được giải quyết bằng cách sử dụng các không gian trạng thái chiều cao hơn (trạng thái ẩn hoặc dấu vết bộ nhớ) hoặc bằng RL phân cấp.
Ở mức độ trừu tượng, việc học tập không giám sát được cho là làm giảm quy định hiệu suất "đúng và sai". Nhưng chúng ta có thể thấy rằng RL chỉ đơn giản là chuyển trách nhiệm từ giáo viên / nhà phê bình sang chức năng khen thưởng. Có một cách ít vòng tròn hơn để giải quyết vấn đề: đó là suy ra hàm thưởng tốt nhất . Một phương pháp được gọi là RL nghịch đảo hoặc "học tập học việc" , tạo ra một chức năng khen thưởng để tái tạo các hành vi được quan sát. Tìm kiếm chức năng phần thưởng tốt nhất để tái tạo một tập hợp các quan sát cũng có thể được thực hiện bằng phương pháp lý thuyết thông tin MLE, Bayesian hoặc thông tin - nếu bạn tìm kiếm "học tập củng cố ngược".