Trải nghiệm trên mạng là gì


19

Tôi đã đọc DeepMind Atari của Google giấy và tôi đang cố gắng để hiểu được khái niệm "kinh nghiệm phát lại". Phát lại kinh nghiệm xuất hiện trong rất nhiều tài liệu học tập củng cố khác (đặc biệt là bài AlphaGo), vì vậy tôi muốn hiểu cách thức hoạt động của nó. Dưới đây là một số trích đoạn.

Đầu tiên, chúng tôi sử dụng một cơ chế lấy cảm hứng từ sinh học gọi là phát lại kinh nghiệm ngẫu nhiên hóa dữ liệu, từ đó loại bỏ các mối tương quan trong chuỗi quan sát và làm mịn các thay đổi trong phân phối dữ liệu.

Bài viết sau đó xây dựng như sau:

Trong khi phương pháp ổn định khác tồn tại để huấn luyện mạng neural trong bối cảnh học tăng cường, như thần kinh được trang bị Q-lặp, các phương pháp này liên quan đến việc đào tạo lặp đi lặp lại của mạng de novo hàng trăm lần lặp lại. Do đó, các phương pháp này, không giống như thuật toán của chúng tôi, quá kém hiệu quả để được sử dụng thành công với các mạng thần kinh lớn. Chúng tôi tham số hóa một hàm giá trị gần đúng bằng cách sử dụng mạng nơ ron tích chập sâu được hiển thị trong Hình 1, trong đó là các tham số (nghĩa là trọng số) của mạng Q khi lặp . Để thực hiện phát lại trải nghiệm, chúng tôi lưu trữ trải nghiệm của đại lý tại mỗi bướcQ(S,một;θTôi)θTôiTôiet= =(St,mộtt,rt,St+1)ttrong tập dữ liệu . Trong quá trình học, chúng tôi áp dụng các cập nhật Q-learning, trên các mẫu (hoặc các đợt nhỏ) kinh nghiệm , được rút ra một cách ngẫu nhiên từ nhóm mẫu được lưu trữ. Bản cập nhật Q-learning tại iteration sử dụng hàm mất sau:Dt= ={e1,Giáo dục,et}(S,một,r,S')~Bạn(D)Tôi

LTôi(θTôi)= =E(S,một,r,S')~Bạn(D)[(r+γtối đamột'Q(S',một';θTôi-)-Q(S,một;θTôi))2]

Phát lại kinh nghiệm là gì và lợi ích của nó là gì, theo thuật ngữ của giáo dân?

Câu trả lời:


25

Phần chính của văn bản được trích dẫn là:

Để thực hiện phát lại trải nghiệm, chúng tôi lưu trữ trải nghiệm của đại lýet= =(St,mộtt,rt,St+1)

Điều này có nghĩa là thay vì chạy Q-learning trên các cặp trạng thái / hành động khi chúng xảy ra trong quá trình mô phỏng hoặc trải nghiệm thực tế, hệ thống lưu trữ dữ liệu được phát hiện cho [trạng thái, hành động, phần thưởng, next_state] - thường trong một bảng lớn. Lưu ý rằng điều này không lưu trữ các giá trị liên quan - đây là dữ liệu thô để đưa vào tính toán giá trị hành động sau này.

Giai đoạn học tập sau đó tách biệt một cách hợp lý với việc tích lũy kinh nghiệm và dựa trên việc lấy các mẫu ngẫu nhiên từ bảng này. Bạn vẫn muốn xen kẽ hai quy trình - hành động và học hỏi - bởi vì cải thiện chính sách sẽ dẫn đến các hành vi khác nhau nên khám phá các hành động gần hơn với các quy trình tối ưu và bạn muốn học hỏi từ các quy trình đó. Tuy nhiên, bạn có thể phân chia điều này theo cách bạn muốn - ví dụ: thực hiện một bước, học từ ba bước ngẫu nhiên trước đó, v.v ... Các mục tiêu Q-Learning khi sử dụng phát lại trải nghiệm sử dụng các mục tiêu giống như phiên bản trực tuyến, do đó không có công thức mới cho điều đó. Công thức thua lỗ được đưa ra cũng là công thức bạn sẽ sử dụng cho DQN mà không cần trải nghiệm lại. Sự khác biệt duy nhất là đó là, một, r, s', một' bạn ăn vào nó.

Trong DQN, nhóm DeepMind cũng duy trì hai mạng và chuyển đổi mạng nào đang học và mạng nào được cung cấp trong ước tính giá trị hành động hiện tại là "bootstraps". Điều này giúp cho sự ổn định của thuật toán khi sử dụng một xấp xỉ hàm phi tuyến tính. Đó là những gì thanh đại diện cho - nó biểu thị phiên bản đông lạnh thay thế của các trọng số.θTôi ¯

Ưu điểm của phát lại kinh nghiệm:

  • Sử dụng hiệu quả hơn kinh nghiệm trước đây, bằng cách học hỏi với nó nhiều lần. Đây là chìa khóa khi có được trải nghiệm thực tế tốn kém, bạn có thể sử dụng toàn bộ nó. Các cập nhật Q-learning tăng dần và không hội tụ nhanh, do đó, nhiều lượt đi với cùng một dữ liệu có lợi, đặc biệt là khi có kết quả thấp trong kết quả ngay lập tức (phần thưởng, trạng thái tiếp theo) với cùng một trạng thái, cặp hành động.

  • Hành vi hội tụ tốt hơn khi đào tạo một hàm xấp xỉ. Một phần điều này là do dữ liệu giống như dữ liệu iid được giả định trong hầu hết các bằng chứng hội tụ học tập có giám sát.

Nhược điểm của kinh nghiệm chơi lại:

  • Việc sử dụng các thuật toán học nhiều bước khó hơn, chẳng hạn như Q ( ), có thể được điều chỉnh để đưa ra các đường cong học tập tốt hơn bằng cách cân bằng giữa sai lệch (do bootstrapping) và phương sai (do sự chậm trễ và ngẫu nhiên trong kết quả dài hạn ). DQN nhiều bước với DQN phát lại kinh nghiệm là một trong những phần mở rộng được khám phá trong bài báo Rainbow: Kết hợp các cải tiến trong học tập tăng cường sâu .λ

Cách tiếp cận được sử dụng trong DQN được David Silver phác thảo ngắn gọn trong các phần của bài giảng video này (khoảng 01:17:00, nhưng đáng xem các phần trước nó). Tôi khuyên bạn nên xem toàn bộ loạt bài, đây là một khóa học sau đại học về học tập củng cố, nếu bạn có thời gian.


Giả sử trong quá trình đào tạo, chúng tôi ở một trạng thái và chúng tôi thực hiện một hành động theo chính sách tham lam của epsilon và bạn kết thúc ở một trạng thái khác. Vì vậy, bạn nhận được phần thưởng, và trạng thái tiếp theo. Ở đây phần thưởng có thể là điểm số của trò chơi và các trạng thái có thể là các mẫu pixel trong màn hình. Và sau đó chúng tôi nhận lỗi giữa hàm apro xấp xỉ hàm và giá trị chúng tôi nhận được từ chính sách tham lam một lần nữa bằng cách sử dụng hàm xấp xỉ hàm đã được đóng băng. Nhưng với kinh nghiệm phát lại khi tối ưu hóa bộ xấp xỉ, chúng tôi lấy một số dữ liệu hành động trạng thái ngẫu nhiên. Tôi có đúng không
Shamane Siriwardhana

1
@ShamaneSiriwardhana: Vâng, tôi nghĩ bạn đúng. Đó là cùng một dữ liệu từ quỹ đạo thực, nhưng thay vì chỉ học từ bước gần đây nhất, bạn lưu nó trong một bảng lớn và lấy mẫu từ bảng đó (thường là nhiều mẫu, với kho 1000 bước trước đó để chọn ). Nếu bạn cần làm rõ hơn, sau đó có thể đặt câu hỏi trên trang web.
Neil Slater

Vâng, tôi đã đi qua tờ giấy một lần nữa. Nó cũng cho biết phương pháp này cũng có thể cải thiện việc học chính sách. Bởi vì trong Q học với hành động theo chính sách tham lam của epsilon nhưng cập nhật các giá trị chức năng theo chính sách tham lam. Vì vậy, mỗi khi các bước thông số mạng thần kinh của chúng tôi được cập nhật bằng thống kê lô nhỏ, điều quan trọng hơn là không liên quan đến thống kê bước thời gian chính xác nhưng những gì xảy ra trước đó cũng giúp xóa dữ liệu.
Shamane Siriwardhana

@Neil Slater, tôi đã xem qua bài báo Rainbow và tôi không thấy bất kỳ nhận xét đặc biệt nào về việc sử dụng một mẹo đặc biệt để kết hợp phát lại kinh nghiệm và phương pháp nhiều bước. Ngoài ra, tôi đã nghe nói rằng phương pháp nhiều bước ban đầu không thể kết hợp với phát lại trải nghiệm nhưng tại sao không chỉ chọn ngẫu nhiên các trải nghiệm n liên tiếp thay vì 1 từ phát lại kinh nghiệm mà từ phát lại để giữa mỗi trải nghiệm n, không tìm thấy mối tương quan nào? Đây không phải là trải nghiệm nhiều bước phát lại sao?
StL

@NeilSlater Tại sao "khó hơn khi sử dụng thuật toán học nhiều bước"? Bạn có ý gì?
Gulzar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.