Tại sao bạn không thấy các lớp bỏ học trên các ví dụ học tập củng cố?

Tôi đã xem xét việc học tăng cường, và đặc biệt là chơi xung quanh với việc tạo môi trường của riêng tôi để sử dụng với OpenAI Gym AI. Tôi đang sử dụng các tác nhân từ dự án ổn định_baselines để thử nghiệm với nó.

Một điều tôi đã nhận thấy trong hầu hết tất cả các ví dụ RL là dường như không bao giờ có bất kỳ lớp bỏ học nào trong bất kỳ mạng nào. Tại sao lại thế này?

Tôi đã tạo ra một môi trường mô phỏng giá tiền tệ và một đại lý đơn giản, sử dụng DQN, cố gắng tìm hiểu khi nào nên mua và bán. Đào tạo nó qua gần một triệu dấu thời gian được lấy từ một bộ dữ liệu cụ thể bao gồm dữ liệu giá 5 phút có giá trị trong một tháng, nó dường như vượt quá nhiều. Sau đó, nếu tôi đánh giá các tác nhân và mô hình dựa trên giá trị dữ liệu của một tháng khác thì sẽ thực hiện rất nhiều. Vì vậy, âm thanh như cổ điển quá mức.

Nhưng có một lý do tại sao bạn không thấy các lớp bỏ trong mạng RL? Có các cơ chế khác để thử và đối phó với quá mức? Hoặc trong nhiều ví dụ RL không thành vấn đề? ví dụ: có thể chỉ có một cách thực sự để đạt điểm cao cuối cùng trong trò chơi 'đột phá', vì vậy bạn cũng có thể học chính xác điều đó, và không cần phải khái quát?

Hoặc được coi là bản chất hỗn loạn của môi trường sẽ cung cấp đủ các kết hợp khác nhau mà bạn không cần phải có các lớp bỏ học?

— Matt Hamilton
nguồn

Bạn đã thử thêm bỏ học vào mạng RL để xem điều gì xảy ra chưa? Tôi có (đối với một bộ giải LunarLander_v2 hoạt động tốt), và kết quả thật tồi tệ, nó đi từ việc giải quyết trong 400 tập, đến khi hoàn toàn không giải quyết được (và tôi đã thử rất nhiều biến thể trong các thông số khác). Chính quy hóa khác là OK, và thậm chí có lợi. Tôi không biết tại sao các vấn đề với bỏ học mặc dù, đã nghĩ đến việc đặt câu hỏi ở đây. . .

— Neil Slater

Neil, vâng, có vẻ như trải nghiệm của bạn ở đó vang vọng những gì được nói dưới đây của Dennis. Như tôi dự đoán, trong kịch bản loại 'giải câu đố này', bạn thực sự đang tìm cách vượt qua như bạn muốn giải câu đố cụ thể đó. Và bạn muốn biết nếu bạn gặp phải một người ngoài hành tinh màu xanh so với người ngoài hành tinh màu đỏ vì họ có thể cư xử khác nhau trong trò chơi của bạn.

— Matt Hamilton

@Matt Hamilton, tôi tình cờ thấy một chuỗi tweet mà ai đó đã thực hiện về câu chuyện "các nhà nghiên cứu RL đang đánh giá về dữ liệu đào tạo". Tôi đã chỉnh sửa một liên kết đến câu trả lời của tôi. Vấn đề vẫn là như vậy khi trả lời câu hỏi của bạn, nhưng tôi đồng ý với chuỗi tweet tôi liên kết đến đó rằng sự thật có nhiều sắc thái hơn.

— Dennis Soemers

Dropout về cơ bản giới thiệu một chút phương sai. Trong các môi trường học tập có giám sát, điều này thực sự thường giúp giảm tình trạng thừa chất (mặc dù tôi tin rằng việc bỏ học cũng đã trở nên ít hơn .. thời trang trong những năm gần đây so với vài năm trước đó, mặc dù tôi không chắc chắn 100%, đó không phải là chính của tôi Khu vực chuyên môn).

Trong Học tăng cường, phương sai bổ sung không thực sự là thứ chúng ta đang tìm kiếm. Đã có xu hướng có một lượng lớn phương sai trong các tín hiệu học tập mà chúng ta nhận được, và phương sai này đã có xu hướng là một vấn đề lớn đối với sự ổn định và / hoặc tốc độ học tập. Ví dụ:

Sự ngẫu nhiên trong lựa chọn hành động dẫn đến phương sai trong lợi nhuận mà chúng ta quan sát được
Có thể có sự ngẫu nhiên vốn có của chính môi trường, dẫn đến sự chênh lệch thêm trong các quan sát của chúng tôi (một số môi trường là không xác định)
$r + \max_{a'} Q(s', a')$ $r$ '' Vấn đề, có thể được xem là phương sai bổ sung trong các tín hiệu học tập của chúng tôi.

Nhiều phần quan trọng của thuật toán Deep RL (mà không có quá trình đào tạo của chúng tôi thực sự biến thành mất ổn định và bị phá vỡ) rất phù hợp với việc giảm phương sai đó. Ví dụ: Mạng mục tiêu trong DQN được giới thiệu cụ thể để giảm sự cố mục tiêu di chuyển. Từ quan điểm này, không có gì đáng ngạc nhiên nếu chúng ta thêm nhiều phương sai nhân tạo thông qua các phương tiện khác một lần nữa (chẳng hạn như bỏ học), rằng điều này sẽ làm tổn hại đến hiệu suất / làm mất ổn định việc học.

Có các cơ chế khác để thử và đối phó với quá mức? Hoặc trong nhiều ví dụ RL không thành vấn đề? ví dụ: có thể chỉ có một cách thực sự để đạt điểm cao cuối cùng trong trò chơi 'đột phá', vì vậy bạn cũng có thể học chính xác điều đó, và không cần phải khái quát?

Trong phần lớn các nghiên cứu Học tập Củng cố (Sâu) hiện nay, quá mức thực sự không được xem là một vấn đề. Phần lớn nghiên cứu RL bao gồm đào tạo trong một môi trường (ví dụ Cartpole, hoặc Breakout, hoặc một cấp độ cụ thể ở Pacman, hoặc điều hướng trong một mê cung cụ thể, v.v.) và liên tục đánh giá hiệu suất trong quá trình học tập hoặc đánh giá hiệu suất sau một quá trình học tập như vậy trong cùng một môi trường .

Nếu chúng ta so sánh phương pháp đánh giá đó với những gì xảy ra trong học tập có giám sát ... thì về cơ bản chúng ta đang đánh giá hiệu suất trên tập huấn luyện * . Trong học tập có giám sát, điều này sẽ hoàn toàn không thể chấp nhận được, nhưng trong RL, nó được coi là rất nhiều chấp nhận và quy tắc hơn là ngoại lệ. Một số người nói rằng đây đơn giản là một vấn đề trong nghiên cứu RL hiện tại, một cái gì đó cần phải thay đổi. Cũng có thể lập luận rằng nó không nhất thiết là một vấn đề; nếu chúng ta thực sự có thể đào tạo đại lý trong cùng một môi trường mà chúng ta muốn triển khai nó sau này ... thì, vấn đề với nó có quá phù hợp với môi trường đó không?

Vì vậy, khi chúng tôi sử dụng phương pháp đánh giá được mô tả ở trên, thực sự chúng tôi đang sử dụng quá mức vào một môi trường cụ thể, nhưng quá mức là tốt chứ không phải xấu theo tiêu chí đánh giá của chúng tôi . Rõ ràng là phương pháp này không dẫn đến các tác nhân có thể khái quát tốt mặc dù; nếu bạn liên tục huấn luyện một đặc vụ để điều hướng trong một mê cung cụ thể, nó có thể sẽ không thể điều hướng một mê cung khác sau khi đào tạo.

* Lưu ý: sự thật, theo tôi, có nhiều sắc thái hơn so với việc chúng tôi thực sự "đánh giá trên tập huấn luyện" trong RL. Xem, ví dụ, chủ đề tốt đẹp này của tweet: https://twitter.com/nanjiang_cs/status/1049682399980908544

Tôi đã tạo ra một môi trường mô phỏng giá tiền tệ và một đại lý đơn giản, sử dụng DQN, cố gắng tìm hiểu khi nào nên mua và bán. Đào tạo nó qua gần một triệu dấu thời gian được lấy từ một bộ dữ liệu cụ thể bao gồm dữ liệu giá 5 phút có giá trị trong một tháng, nó dường như vượt quá nhiều. Sau đó, nếu tôi đánh giá các tác nhân và mô hình dựa trên giá trị dữ liệu của một tháng khác thì sẽ thực hiện rất nhiều. Vì vậy, âm thanh như cổ điển quá mức.

Lưu ý rằng phương pháp đánh giá của bạn được mô tả ở đây thực sự không còn phù hợp với phương pháp đánh giá "phổ biến" hơn. Bạn có một vấn đề với khái niệm trôi dạt , với sự không ổn định trong môi trường. Điều này có nghĩa là quá mức có thể là một vấn đề cho bạn.

Tuy nhiên, tôi không chắc liệu bỏ học có giúp ích gì không (vẫn là phương sai bổ sung có thể gây tổn thương). Trước hết, bạn muốn chắc chắn rằng có một số cách để theo dõi thời gian / tháng trong đầu vào của bạn, để bạn ít nhất có cơ hội học một chính sách thích nghi theo thời gian. Nếu bạn có ranh giới rõ ràng, vững chắc giữa "giai đoạn đào tạo" và "giai đoạn đánh giá" và bạn biết rằng sự trôi dạt khái niệm xảy ra trên ranh giới đó (bạn biết rằng môi trường của bạn hành xử khác trong giai đoạn đào tạo từ giai đoạn đánh giá) ... bạn thực sự không có nhiều hy vọng học một chính sách chỉ từ kinh nghiệm trong giai đoạn đào tạo vẫn thực hiện tốt trong giai đoạn đánh giá. Tôi nghi ngờ bạn sẽ phải thoát khỏi ranh giới rõ ràng, vững chắc đó. Bạn' tôi cũng muốn tiếp tục học hỏi trong suốt giai đoạn đánh giá. Điều này cho phép thuật toán học tập của bạn thực sự thu thập kinh nghiệm trong môi trường thay đổi và thích nghi với nó.

— Dennis Soemers
nguồn

Dennis, cảm ơn bạn rất nhiều vì đã trả lời rất chi tiết! Rất nhiều trong số đó xác nhận tôi nghĩ rằng sự nghi ngờ của tôi: tức là có nhiều RL đang cố gắng giải quyết một vấn đề rất cụ thể trong một môi trường cụ thể, trong đó thường có một giải pháp 'tốt nhất' rõ ràng cho vấn đề đó.

— Matt Hamilton

@Matt Hamiltonilton Lưu ý rằng có nghiên cứu về RL cho các môi trường chung hơn. Nếu bạn quan tâm đến nội dung đó, bạn sẽ muốn tìm kiếm các kết hợp "Học chuyển giao" và "Học tăng cường" hoặc những thứ như RL đa tác vụ (RL đa mục tiêu cũng có thể thú vị, nhưng có lẽ hơi khác ). Những loại nỗ lực đó vẫn có xu hướng ít hiệu quả hơn đáng kể so với phương pháp đào tạo và đánh giá truyền thống tại một môi trường tại một thời điểm.

— Dennis Soemers