Dropout về cơ bản giới thiệu một chút phương sai. Trong các môi trường học tập có giám sát, điều này thực sự thường giúp giảm tình trạng thừa chất (mặc dù tôi tin rằng việc bỏ học cũng đã trở nên ít hơn .. thời trang trong những năm gần đây so với vài năm trước đó, mặc dù tôi không chắc chắn 100%, đó không phải là chính của tôi Khu vực chuyên môn).
Trong Học tăng cường, phương sai bổ sung không thực sự là thứ chúng ta đang tìm kiếm. Đã có xu hướng có một lượng lớn phương sai trong các tín hiệu học tập mà chúng ta nhận được, và phương sai này đã có xu hướng là một vấn đề lớn đối với sự ổn định và / hoặc tốc độ học tập. Ví dụ:
- Sự ngẫu nhiên trong lựa chọn hành động dẫn đến phương sai trong lợi nhuận mà chúng ta quan sát được
- Có thể có sự ngẫu nhiên vốn có của chính môi trường, dẫn đến sự chênh lệch thêm trong các quan sát của chúng tôi (một số môi trường là không xác định)
- r + tối đamột'Q ( s', một')r'' Vấn đề, có thể được xem là phương sai bổ sung trong các tín hiệu học tập của chúng tôi.
Nhiều phần quan trọng của thuật toán Deep RL (mà không có quá trình đào tạo của chúng tôi thực sự biến thành mất ổn định và bị phá vỡ) rất phù hợp với việc giảm phương sai đó. Ví dụ: Mạng mục tiêu trong DQN được giới thiệu cụ thể để giảm sự cố mục tiêu di chuyển. Từ quan điểm này, không có gì đáng ngạc nhiên nếu chúng ta thêm nhiều phương sai nhân tạo thông qua các phương tiện khác một lần nữa (chẳng hạn như bỏ học), rằng điều này sẽ làm tổn hại đến hiệu suất / làm mất ổn định việc học.
Có các cơ chế khác để thử và đối phó với quá mức? Hoặc trong nhiều ví dụ RL không thành vấn đề? ví dụ: có thể chỉ có một cách thực sự để đạt điểm cao cuối cùng trong trò chơi 'đột phá', vì vậy bạn cũng có thể học chính xác điều đó, và không cần phải khái quát?
Trong phần lớn các nghiên cứu Học tập Củng cố (Sâu) hiện nay, quá mức thực sự không được xem là một vấn đề. Phần lớn nghiên cứu RL bao gồm đào tạo trong một môi trường (ví dụ Cartpole, hoặc Breakout, hoặc một cấp độ cụ thể ở Pacman, hoặc điều hướng trong một mê cung cụ thể, v.v.) và liên tục đánh giá hiệu suất trong quá trình học tập hoặc đánh giá hiệu suất sau một quá trình học tập như vậy trong cùng một môi trường .
Nếu chúng ta so sánh phương pháp đánh giá đó với những gì xảy ra trong học tập có giám sát ... thì về cơ bản chúng ta đang đánh giá hiệu suất trên tập huấn luyện * . Trong học tập có giám sát, điều này sẽ hoàn toàn không thể chấp nhận được, nhưng trong RL, nó được coi là rất nhiều chấp nhận và quy tắc hơn là ngoại lệ. Một số người nói rằng đây đơn giản là một vấn đề trong nghiên cứu RL hiện tại, một cái gì đó cần phải thay đổi. Cũng có thể lập luận rằng nó không nhất thiết là một vấn đề; nếu chúng ta thực sự có thể đào tạo đại lý trong cùng một môi trường mà chúng ta muốn triển khai nó sau này ... thì, vấn đề với nó có quá phù hợp với môi trường đó không?
Vì vậy, khi chúng tôi sử dụng phương pháp đánh giá được mô tả ở trên, thực sự chúng tôi đang sử dụng quá mức vào một môi trường cụ thể, nhưng quá mức là tốt chứ không phải xấu theo tiêu chí đánh giá của chúng tôi . Rõ ràng là phương pháp này không dẫn đến các tác nhân có thể khái quát tốt mặc dù; nếu bạn liên tục huấn luyện một đặc vụ để điều hướng trong một mê cung cụ thể, nó có thể sẽ không thể điều hướng một mê cung khác sau khi đào tạo.
* Lưu ý: sự thật, theo tôi, có nhiều sắc thái hơn so với việc chúng tôi thực sự "đánh giá trên tập huấn luyện" trong RL. Xem, ví dụ, chủ đề tốt đẹp này của tweet: https://twitter.com/nanjiang_cs/status/1049682399980908544
Tôi đã tạo ra một môi trường mô phỏng giá tiền tệ và một đại lý đơn giản, sử dụng DQN, cố gắng tìm hiểu khi nào nên mua và bán. Đào tạo nó qua gần một triệu dấu thời gian được lấy từ một bộ dữ liệu cụ thể bao gồm dữ liệu giá 5 phút có giá trị trong một tháng, nó dường như vượt quá nhiều. Sau đó, nếu tôi đánh giá các tác nhân và mô hình dựa trên giá trị dữ liệu của một tháng khác thì sẽ thực hiện rất nhiều. Vì vậy, âm thanh như cổ điển quá mức.
Lưu ý rằng phương pháp đánh giá của bạn được mô tả ở đây thực sự không còn phù hợp với phương pháp đánh giá "phổ biến" hơn. Bạn có một vấn đề với khái niệm trôi dạt , với sự không ổn định trong môi trường. Điều này có nghĩa là quá mức có thể là một vấn đề cho bạn.
Tuy nhiên, tôi không chắc liệu bỏ học có giúp ích gì không (vẫn là phương sai bổ sung có thể gây tổn thương). Trước hết, bạn muốn chắc chắn rằng có một số cách để theo dõi thời gian / tháng trong đầu vào của bạn, để bạn ít nhất có cơ hội học một chính sách thích nghi theo thời gian. Nếu bạn có ranh giới rõ ràng, vững chắc giữa "giai đoạn đào tạo" và "giai đoạn đánh giá" và bạn biết rằng sự trôi dạt khái niệm xảy ra trên ranh giới đó (bạn biết rằng môi trường của bạn hành xử khác trong giai đoạn đào tạo từ giai đoạn đánh giá) ... bạn thực sự không có nhiều hy vọng học một chính sách chỉ từ kinh nghiệm trong giai đoạn đào tạo vẫn thực hiện tốt trong giai đoạn đánh giá. Tôi nghi ngờ bạn sẽ phải thoát khỏi ranh giới rõ ràng, vững chắc đó. Bạn' tôi cũng muốn tiếp tục học hỏi trong suốt giai đoạn đánh giá. Điều này cho phép thuật toán học tập của bạn thực sự thu thập kinh nghiệm trong môi trường thay đổi và thích nghi với nó.