Bạn có quyền, hàm cung cấp cho bạn giá trị của trạng thái và cung cấp cho bạn giá trị của một hành động ở trạng thái (tuân theo chính sách đã cho ). Tôi đã tìm thấy lời giải thích rõ ràng nhất về Q-learning và cách nó hoạt động trong cuốn sách "Machine Learning" của Tom Mitchell (1997), ch. 13, có thể tải xuống. được định nghĩa là tổng của một chuỗi vô hạn nhưng nó không quan trọng ở đây. Vấn đề là hàm được định nghĩa làVQπVQ
Q(s,a)=r(s,a)+γV∗(δ(s,a))
trong đó V * là giá trị tốt nhất của trạng thái nếu bạn có thể tuân theo chính sách tối ưu mà bạn không cho Tôi không biết. Tuy nhiên, nó có một đặc tính tốt về mặt
Tính toán được thực hiện bằng cách thay thế trong phương trình đầu tiên để cung cấp
Q
V∗(s)=maxa′Q(s,a′)
QV∗Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
Lúc đầu, điều này có vẻ như là một đệ quy kỳ lạ vì nó biểu thị giá trị Q của một hành động ở trạng thái hiện tại theo giá trị Q tốt nhất của trạng thái kế , nhưng nó có ý nghĩa khi bạn xem cách quá trình sao lưu sử dụng nó: quá trình dừng lại khi đạt đến trạng thái mục tiêu và thu thập phần thưởng, trở thành giá trị Q của quá trình chuyển đổi cuối cùng. Bây giờ trong tập huấn luyện tiếp theo, khi quá trình thăm dò đạt đến trạng thái tiền thân đó, quá trình sao lưu sử dụng đẳng thức trên để cập nhật giá trị Q hiện tại của trạng thái tiền thân. Tiếp theo thời gian của mìnhngười tiền nhiệm được truy cập giá trị Q của trạng thái được cập nhật, và cứ thế quay ngược dòng (cuốn sách của Mitchell mô tả một cách hiệu quả hơn để làm điều này bằng cách lưu trữ tất cả các tính toán và phát lại chúng sau). Với điều kiện mọi trạng thái được truy cập vô hạn thường xuyên, quá trình này cuối cùng sẽ tính Q tối ưu
Đôi khi bạn sẽ thấy tốc độ học tập được áp dụng để kiểm soát lượng Q thực sự được cập nhật:
Lưu ý rằng việc cập nhật giá trị Q không phụ thuộc vào giá trị Q hiện tại. Cuốn sách của Mitchell cũng giải thích lý do tại sao và đó là lý do tại sao bạn cần : cuốn sách dành cho MDP ngẫu nhiên. Nếu không có , mỗi khi một trạng thái, cặp hành động được thử sẽ có một phần thưởng khác nhau để hàm Q ^ sẽ nảy khắp nơi và không hội tụ. ở đó để kiến thức mới chỉ được chấp nhận một phần.αQ(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
ααααđược đặt ở mức cao để các giá trị hiện tại (chủ yếu là ngẫu nhiên) của Q ít ảnh hưởng hơn. bị giảm khi quá trình đào tạo tiến triển, do đó các cập nhật mới ngày càng ít ảnh hưởng hơn và giờ đây, việc học Q hội tụα