Tôi nghi ngờ về cách chính xác chức năng mất của Mạng Q-Learning sâu được đào tạo. Tôi đang sử dụng một mạng feedforward 2 lớp với lớp đầu ra tuyến tính và các lớp ẩn relu.
- Giả sử tôi có 4 hành động có thể. Do đó, đầu ra của mạng của tôi cho tình trạng hiện thời là Q ( s t ) ∈ R 4 . Để làm cho nó cụ thể hơn, giả sử Q ( s t ) = [ 1.3 , 0.4 , 4.3 , 1.5 ]
- Bây giờ tôi thực hiện hành động tương ứng với giá trị 4.3 tức là hành động thứ 3 và đạt đến trạng thái mới s t + 1 .
- Tiếp theo, tôi tính toán chuyển tiếp với trạng thái và giả sử tôi nhận được các giá trị sau ở lớp đầu ra Q ( s t + 1 ) = [ 9.1 , 2.4 , 0.1 , 0.3 ] . Cũng giả sử phần thưởng r t = 2 , và γ = 1,0 .
Là sự mất mát được đưa ra bởi:
HOẶC LÀ
HOẶC LÀ
Cảm ơn bạn, xin lỗi tôi đã phải viết nó ra một cách rất cơ bản ... Tôi bối rối bởi tất cả các ký hiệu. (Tôi nghĩ câu trả lời đúng là câu thứ hai ...)