Không có ý nghĩa gì về văn phòng phẩm của người Hồi giáo trong bối cảnh học tập củng cố?


9

Tôi nghĩ rằng tôi đã thấy các biểu thức "dữ liệu tĩnh", "động lực học cố định" và "chính sách dừng", trong số những thứ khác, trong bối cảnh học tập củng cố. Nó có nghĩa là gì? Tôi nghĩ rằng chính sách cố định có nghĩa là chính sách này không phụ thuộc vào thời gian và chỉ phụ thuộc vào nhà nước. Nhưng đó không phải là một sự khác biệt không cần thiết? Nếu chính sách phụ thuộc vào thời gian và không chỉ phụ thuộc vào nhà nước, thì thời gian nói đúng cũng nên là một phần của nhà nước.

Câu trả lời:


4

Một chính sách văn phòng phẩm là một chính sách không thay đổi. Mặc dù nghiêm túc đó là một vấn đề phụ thuộc vào thời gian, nhưng đó không phải là điều mà sự khác biệt đề cập đến trong học tập củng cố. Nó thường có nghĩa là chính sách không được cập nhật bởi một thuật toán học tập.

Nếu bạn đang làm việc với một chính sách cố định trong học tập củng cố (RL), thông thường đó là vì bạn đang cố gắng học hàm giá trị của nó. Nhiều kỹ thuật RL - bao gồm Monte Carlo, Sự khác biệt tạm thời, Lập trình động - có thể được sử dụng để đánh giá một chính sách nhất định, cũng như được sử dụng để tìm kiếm một chính sách tốt hơn hoặc tối ưu hơn.

Động lực học cố định đề cập đến môi trường, và là một giả định rằng các quy tắc của môi trường không thay đổi theo thời gian. Các quy tắc của môi trường thường được biểu diễn dưới dạng mô hình MDP, bao gồm tất cả các xác suất chuyển tiếp trạng thái và phân phối phần thưởng. Các thuật toán học tăng cường hoạt động trực tuyến thường có thể đối phó và điều chỉnh các chính sách để phù hợp với môi trường không cố định, miễn là các thay đổi không xảy ra quá thường xuyên hoặc thời gian học / khám phá đủ được cho phép giữa các thay đổi triệt để hơn. Hầu hết các thuật toán RL đều có ít nhất một số thành phần trực tuyến, điều quan trọng là phải tiếp tục khám phá các hành động không tối ưu trong môi trường có đặc điểm này (để phát hiện khi nào chúng có thể trở nên tối ưu).

Dữ liệu văn phòng phẩm không phải là thuật ngữ dành riêng cho RL, nhưng cũng liên quan đến nhu cầu sử dụng thuật toán trực tuyến hoặc ít nhất là các kế hoạch loại bỏ dữ liệu cũ hơn và đào tạo lại các mô hình hiện có theo thời gian. Bạn có thể có dữ liệu không cố định trong bất kỳ ML nào, bao gồm cả việc học có giám sát - các vấn đề dự đoán liên quan đến dữ liệu về con người và hành vi của họ thường có vấn đề này khi các quy tắc dân số thay đổi theo thời gian của tháng và năm.


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
nbro

2

Một chính sách cố định là một chính sách không phụ thuộc vào thời gian. Có nghĩa là các đại lý sẽ đưa ra quyết định tương tự bất cứ khi nào điều kiện nhất định được đáp ứng. Chính sách cố định này có thể có xác suất, ngụ ý rằng xác suất chọn hành động vẫn như cũ. Nó có thể đưa ra các quyết định khác nhau nhưng xác suất vẫn như nhau.

Một môi trường Văn phòng đề cập đến mô hình tĩnh của hệ thống. Mô hình bao gồm chức năng Phần thưởng và xác suất chuyển tiếp. Vì vậy, trong môi trường đứng yên, chức năng phần thưởng và xác suất chuyển tiếp không đổi hoặc các thay đổi đủ chậm để tác nhân tìm thấy đủ thời gian đào tạo để tìm hiểu các thay đổi được thực hiện trong môi trường.


1

Bạn đã đúng: một chính sách cố định không phụ thuộc vào thời gian. Nó về cơ bản là một ánh xạ từ các trạng thái đến hành động. Mặc dù tại thời điểm mà tác nhân quan sát trạng thái , nó sẽ chọn một hành động a .


4
Lưu ý rằng một chính sách văn phòng vẫn có thể là một chính sách không xác định, vì vậy nó không phải lúc nào cũng chọn hành động tương tự cho tình trạng tương tự . Xác suất của nó khi chọn nhất định sẽ vẫn cố định theo thời gian để nó trở thành chính sách đứng yên. mộtSπ(một|S)mộtS
Dennis Soemers

0

Có hai loại vấn đề

Văn phòng phẩm và không cố định

Các vấn đề cố định là những vấn đề có giá trị phần thưởng là tĩnh, không thay đổi và mặt khác, các vấn đề không cố định là những vấn đề có giá trị phần thưởng thay đổi theo thời gian

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.