Một chính sách văn phòng phẩm là một chính sách không thay đổi. Mặc dù nghiêm túc đó là một vấn đề phụ thuộc vào thời gian, nhưng đó không phải là điều mà sự khác biệt đề cập đến trong học tập củng cố. Nó thường có nghĩa là chính sách không được cập nhật bởi một thuật toán học tập.
Nếu bạn đang làm việc với một chính sách cố định trong học tập củng cố (RL), thông thường đó là vì bạn đang cố gắng học hàm giá trị của nó. Nhiều kỹ thuật RL - bao gồm Monte Carlo, Sự khác biệt tạm thời, Lập trình động - có thể được sử dụng để đánh giá một chính sách nhất định, cũng như được sử dụng để tìm kiếm một chính sách tốt hơn hoặc tối ưu hơn.
Động lực học cố định đề cập đến môi trường, và là một giả định rằng các quy tắc của môi trường không thay đổi theo thời gian. Các quy tắc của môi trường thường được biểu diễn dưới dạng mô hình MDP, bao gồm tất cả các xác suất chuyển tiếp trạng thái và phân phối phần thưởng. Các thuật toán học tăng cường hoạt động trực tuyến thường có thể đối phó và điều chỉnh các chính sách để phù hợp với môi trường không cố định, miễn là các thay đổi không xảy ra quá thường xuyên hoặc thời gian học / khám phá đủ được cho phép giữa các thay đổi triệt để hơn. Hầu hết các thuật toán RL đều có ít nhất một số thành phần trực tuyến, điều quan trọng là phải tiếp tục khám phá các hành động không tối ưu trong môi trường có đặc điểm này (để phát hiện khi nào chúng có thể trở nên tối ưu).
Dữ liệu văn phòng phẩm không phải là thuật ngữ dành riêng cho RL, nhưng cũng liên quan đến nhu cầu sử dụng thuật toán trực tuyến hoặc ít nhất là các kế hoạch loại bỏ dữ liệu cũ hơn và đào tạo lại các mô hình hiện có theo thời gian. Bạn có thể có dữ liệu không cố định trong bất kỳ ML nào, bao gồm cả việc học có giám sát - các vấn đề dự đoán liên quan đến dữ liệu về con người và hành vi của họ thường có vấn đề này khi các quy tắc dân số thay đổi theo thời gian của tháng và năm.