Sau khi đọc những thành tựu sâu sắc của google về các trò chơi của Atari , tôi đang cố gắng tìm hiểu về q-learning và q-mạng, nhưng tôi hơi bối rối. Sự nhầm lẫn phát sinh trong khái niệm về yếu tố giảm giá. Tóm tắt ngắn gọn những gì tôi hiểu. Một mạng nơ ron tích chập sâu được sử dụng để ước tính giá trị của giá trị mong đợi tối ưu của một hành động. Mạng lưới có để giảm thiểu hàm tổn thất
Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2]
trong đó
Es′[y|s,a] là
E[r+γmaxa′Q(s′,a′;θ−i)∣∣s,a]
Trong đó
Qlà giá trị điểm tích lũy và
rlà giá trị điểm cho hành động chọn.
s,avà
lần lượt là trạng thái và hành động chọn vào thời điểm
t và nhà nước và hành động vào thời điểm
t ' . Các
θ - i là trọng số của mạng ở phiên trước đó. Các
γ là hệ số chiết khấu mà đưa vào tài khoản chênh lệch thời gian của các giá trị điểm số. Các chỉ số
i là bước thời gian. Vấn đề ở đây là phải hiểu tại sao
γ không phụ thuộc vào
θ .
s′,a′tt′θ−iγiγθ
Từ quan điểm toán học của xem là yếu tố giảm giá và thể hiện khả năng để đạt đến trạng thái s ' từ trạng thái s .γs′s
Tôi đoán rằng mạng thực sự học cách rescale các theo giá trị thực sự của γ , vậy tại sao không để γ = 1 ?Qγγ=1