Ý nghĩa của yếu tố giảm giá đối với việc học tăng cường


10

Sau khi đọc những thành tựu sâu sắc của google về các trò chơi của Atari , tôi đang cố gắng tìm hiểu về q-learning và q-mạng, nhưng tôi hơi bối rối. Sự nhầm lẫn phát sinh trong khái niệm về yếu tố giảm giá. Tóm tắt ngắn gọn những gì tôi hiểu. Một mạng nơ ron tích chập sâu được sử dụng để ước tính giá trị của giá trị mong đợi tối ưu của một hành động. Mạng lưới có để giảm thiểu hàm tổn thất

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
trong đóEs[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Trong đóQlà giá trị điểm tích lũy vàrlà giá trị điểm cho hành động chọn. s,a lần lượt là trạng thái và hành động chọn vào thời điểm t và nhà nước và hành động vào thời điểm t ' . Các θ - i là trọng số của mạng ở phiên trước đó. Các γ là hệ số chiết khấu mà đưa vào tài khoản chênh lệch thời gian của các giá trị điểm số. Các chỉ số i là bước thời gian. Vấn đề ở đây là phải hiểu tại sao γ không phụ thuộc vào θ .s,attθiγiγθ

Từ quan điểm toán học của xem là yếu tố giảm giá và thể hiện khả năng để đạt đến trạng thái s ' từ trạng thái s .γss

Tôi đoán rằng mạng thực sự học cách rescale các theo giá trị thực sự của γ , vậy tại sao không để γ = 1 ?Qγγ=1

Câu trả lời:


6

Hệ số chiết khấu không thể hiện khả năng đạt được trạng thái s từ trạng thái s . Đó sẽ là p(s|s,a) , không được sử dụng trong Q-Learning, vì nó không có mô hình (chỉ các phương pháp học tăng cường dựa trên mô hình sử dụng các xác suất chuyển tiếp đó). Yếu tố giảm γ là một hyperparameter điều chỉnh bởi người sử dụng đại diện cho bao nhiêu sự kiện tương lai mất giá trị của mình theo cách rất xa trong thời gian họ đang có. Trong công thức được gọi, bạn đang nói rằng giá trị y cho tình trạng hiện tại của bạn slà phần thưởng tức thời cho trạng thái này cộng với những gì bạn mong muốn nhận được trong tương lai bắt đầu từ s . Nhưng điều khoản tương lai đó phải được giảm giá, vì phần thưởng trong tương lai có thể không (nếu γ<1 ) có cùng giá trị như nhận phần thưởng ngay bây giờ (giống như chúng tôi muốn nhận 100 đô la ngay bây giờ thay vì 100 đô la vào ngày mai). Tùy thuộc vào bạn chọn mức độ bạn muốn khấu hao phần thưởng trong tương lai của bạn (phụ thuộc vào vấn đề). Hệ số chiết khấu bằng 0 có nghĩa là bạn chỉ quan tâm đến phần thưởng ngay lập tức. Hệ số chiết khấu của bạn càng cao, phần thưởng của bạn sẽ càng lan truyền theo thời gian.

Tôi khuyên bạn nên đọc cuốn sách Sutton & Barto trước khi thử Deep-Q để tìm hiểu Học tập Củng cố thuần túy bên ngoài bối cảnh của các mạng lưới thần kinh, có thể khiến bạn bối rối.


dc
Ev=i=1+γidc
d

dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.