Hiểu về học tập củng cố với mạng lưới thần kinh (Q-learning)

Tôi đang cố gắng tìm hiểu quá trình học tập củng cố và các quy trình quyết định markov (MDP) trong trường hợp mạng lưới thần kinh đang được sử dụng làm công cụ xấp xỉ hàm.

Tôi đang gặp khó khăn với mối quan hệ giữa MDP nơi môi trường được khám phá theo cách xác suất, cách điều này ánh xạ trở lại các tham số học tập và cách tìm ra giải pháp / chính sách cuối cùng.

Tôi có đúng không khi cho rằng trong trường hợp Q-learning, mạng lưới thần kinh về cơ bản hoạt động như một hàm xấp xỉ hàm cho chính giá trị q rất nhiều bước trong tương lai? Làm thế nào để bản đồ này cập nhật các tham số thông qua backpropagation hoặc các phương pháp khác?

Ngoài ra, một khi mạng đã học được cách dự đoán phần thưởng trong tương lai, làm thế nào điều này phù hợp với hệ thống về mặt thực sự đưa ra quyết định? Tôi giả định rằng hệ thống cuối cùng sẽ không thực hiện chuyển đổi trạng thái.

Cảm ơn

machine-learning neural-network q-learning

— MèoLoveJazz
nguồn

Learning.I nghĩ rằng nó sẽ làm sáng tỏ những nghi ngờ của bạn kumarbasaveswara.in/q-learning.py linkedin.com/feed/update/urn:li:activity:6484453542299037696

— Kumar Arduino

Trong Q-Learning, trên mỗi bước bạn sẽ sử dụng các quan sát và phần thưởng để cập nhật chức năng Q-value của mình:

Q_{t + 1} (S_{t}, {một}_{t}) = = Q_{t} (S_{t}, {một}_{t}) + α [R_{t + 1} + γ \underset{{một}^{'}}{tối đa} Q_{t} (S_{t + 1}, {một}^{'}) - Q_{t} (S_{t}, {một}_{t})]

$Q_{t+1}(s_t,a_t) = Q_t(s_t,a_t) + \alpha [R_{t+1}+ \gamma \underset{a'}{\max} Q_t(s_{t+1},a') - Q_t(s_t, a_t)]$

Bạn đã đúng khi nói rằng mạng nơ ron chỉ là một xấp xỉ hàm cho hàm q-value.

Nói chung, phần gần đúng chỉ là một vấn đề học tập có giám sát tiêu chuẩn. Mạng của bạn sử dụng (s, a) làm đầu vào và đầu ra là giá trị q. Khi giá trị q được điều chỉnh, bạn cần huấn luyện các mẫu mới này vào mạng. Tuy nhiên, bạn sẽ tìm thấy một số vấn đề khi bạn sử dụng các mẫu tương quan và SGD sẽ bị.

Nếu bạn đang xem bài báo DQN, mọi thứ hơi khác một chút. Trong trường hợp đó, những gì họ đang làm là đặt các mẫu vào một vectơ (phát lại kinh nghiệm). Để dạy mạng, họ lấy mẫu các bộ dữ liệu từ vectơ, bootstrap sử dụng thông tin này để có được giá trị q mới được dạy cho mạng. Khi tôi nói việc giảng dạy, tôi có nghĩa là điều chỉnh các tham số mạng bằng cách sử dụng độ dốc dốc ngẫu nhiên hoặc phương pháp tối ưu hóa yêu thích của bạn. Bằng cách không dạy các mẫu theo thứ tự đang được thu thập bởi chính sách, việc giải mã chúng và điều đó giúp ích cho việc đào tạo.

Cuối cùng, để đưa ra quyết định về trạng thái , bạn chọn hành động mà cung cấp q có giá trị cao nhất: $s$

{một}^{*} (S) = = \underset{một}{một r g m một x} Q (S, một)

$a^*(s)= \underset{a}{argmax} \space Q(s,a)$

Nếu hàm Q-value của bạn đã được học hoàn toàn và môi trường đứng yên, thì thật tốt khi bạn tham lam vào thời điểm này. Tuy nhiên, trong khi học, bạn sẽ khám phá. Có một số cách tiếp cận là tham lam một trong những cách dễ nhất và phổ biến nhất. $\varepsilon$

— Juan Leni
nguồn

Cảm ơn bạn điều này rất hữu ích, điều đó rất có ý nghĩa! Chỉ cần làm rõ, một khi hệ thống đã được đào tạo, bạn có thể cung cấp từng hành động có thể với các trạng thái đầu vào hiện tại vào mạng thần kinh và chọn hành động ước tính phần thưởng lớn nhất (giá trị q) không?

— MèoLoveJazz

Chính xác. Tuy nhiên, hãy nhớ rằng nếu môi trường của bạn không ổn định, bạn có thể muốn tiếp tục khám phá. Nói chung, Q-learning chạy trực tuyến và bạn liên tục đào tạo.

— Juan Leni

Tuyệt vời, bạn có biết về bất kỳ tài liệu nào xung quanh câu trả lời của bạn không? Tôi đoán một giải pháp thay thế cho đào tạo trực tuyến sẽ là đào tạo lại dữ liệu mới được quan sát mỗi n khoảng thời gian để không để việc thăm dò thất bại ảnh hưởng đến hiệu suất trong môi trường sản xuất.

— MèoLoveJazz

Về cơ bản, tôi đang đề cập đến vấn đề nan giải thăm dò-khai thác. Có nhiều cách tiếp cận .. Một cách dễ dàng để áp dụng một cách dễ dàng là đây: tokic.com/www/tokicm/publikationen/ con / điều trong đó bạn điều chỉnh epsilon một cách thích ứng dựa trên lỗi của hàm giá trị của bạn

— Juan Leni

Một tác phẩm kinh điển là tờ giấy / cuốn sách này (1996): web.mit.edu/people/dimitrib/NDP_Encycl.pdf . athenasc.com/ndpbook.html Ngày nay, có rất nhiều công việc kết hợp Deep Neural Networks và RL. Giấy tờ Deepmind là một ví dụ điển hình: storage.googleapis.com/deepmind-data/assets/papers/...

— Juan Leni