Có các thuật toán học tập củng cố quy mô cho các vấn đề lớn?


7

Đưa ra một vấn đề lớn, phép lặp giá trị và các cách tiếp cận dựa trên bảng khác dường như đòi hỏi quá nhiều lần lặp trước khi chúng bắt đầu hội tụ. Có cách tiếp cận học tập củng cố nào khác mà quy mô tốt hơn cho các vấn đề lớn và giảm thiểu số lần lặp nói chung?

Câu trả lời:


4

Đây là một câu hỏi lớn. Tôi sẽ không cố gắng bao quát các công nghệ hiện đại, nhưng tôi sẽ cố gắng đề cập đến một số ý chính.

Xấp xỉ chức năng [1]
Một chiến lược thiết yếu để nhân rộng các thuật toán RL là giảm kích thước hiệu quả của trạng thái và / hoặc không gian hành động của bạn thông qua xấp xỉ hàm. Ví dụ: bạn có thể tham số hóa hàm giá trị của mình bằng cách sử dụng ít tham số hơn trạng thái. Tối ưu hóa sau đó sẽ diễn ra trong không gian tham số nhỏ hơn nhiều, có thể nhanh hơn đáng kể. Lưu ý rằng việc sử dụng xấp xỉ hàm hầu như luôn làm bạn mất đi bất kỳ sự hội tụ nào đảm bảo bạn sẽ có mặt khác trong cài đặt dạng bảng. Nó đã rất thành công trong thực tế, mặc dù.

Lấy mẫu [2]
Lặp lại giá trị và các thuật toán lập trình động khác quét qua toàn bộ không gian trạng thái khi tính toán các hàm giá trị. Cách tiếp cận dựa trên mẫu thay vì cập nhật các hàm giá trị cho các trạng thái khi chúng được truy cập. Chúng bao gồm các phương pháp khác biệt Monte Carlo và Temporal. Lấy mẫu cho phép chúng tôi tập trung vào một tập hợp con của các trạng thái, giải phóng chúng tôi khỏi tính toán cần thiết để có được ước tính giá trị chính xác của các trạng thái không liên quan. Điều này rất cần thiết trong môi trường thế giới thực, nơi hầu hết tất cả các quốc gia có thể có trên thế giới đều không liên quan hoặc thậm chí không thể tiếp cận.

Hiệu quả mẫu / Phát lại trải nghiệm
Tất cả đều khác, một tác nhân hiệu quả mẫu là một tác nhân học hỏi nhiều hơn với cùng trải nghiệm. Làm điều này làm giảm thời gian học tập, đặc biệt nếu nút cổ chai thời gian tương tác với môi trường. Một cách cơ bản để cải thiện hiệu quả mẫu là lưu trữ và sử dụng lại trải nghiệm với một cái gì đó giống như bộ đệm phát lại trải nghiệm phổ biến trong bài báo DQN . Một thuật toán khác, gần đây hơn, được gọi là Hindsight Experience Replay cải thiện hiệu quả mẫu bằng cách cho phép tác nhân tìm hiểu thêm từ những thất bại của nó (quỹ đạo không có phần thưởng).

Phương pháp dựa trên mô hình [3]
Mặc dù về mặt kỹ thuật cũng về hiệu quả mẫu (có thể tất cả các điểm này là?), Các phương pháp dựa trên mô hình đủ quan trọng để đảm bảo phần riêng của chúng. Thông thường, động lực học MDP không được biết đến trước cho tác nhân. Do đó, học và duy trì ước tính MDP thường là một ý tưởng tốt. Nếu một tác nhân có thể sử dụng mô hình nội bộ của thế giới để mô phỏng trải nghiệm, thì họ có thể học hỏi từ kinh nghiệm mô phỏng đó (gọi là lập kế hoạch ) ngoài việc học hỏi từ kinh nghiệm thực tế. Bởi vì kinh nghiệm mô phỏng thu thập rẻ hơn nhiều so với trải nghiệm thực tế, điều này có thể giảm thời gian cần thiết để tìm hiểu.

Tìm kiếm [4]
Nếu ước tính giá trị của chúng tôi là hoàn hảo, thì hành xử tối ưu sẽ chỉ là vấn đề chuyển sang trạng thái lân cận với giá trị cao nhất. Tuy nhiên, điều này hầu như không bao giờ xảy ra, vì vậy chúng tôi muốn đưa ra quyết định thông minh hơn. Một cách, được gọi là tìm kiếm chuyển tiếp , là sử dụng một mô hình để xem xét nhiều quỹ đạo có thể bắt đầu từ trạng thái hiện tại. Ví dụ phổ biến và thành công nhất của tìm kiếm chuyển tiếp là Monte Carlo Tree Search (MCTS), được sử dụng nổi tiếng trong AlphaGo Zero . Bởi vì tìm kiếm cho phép chúng tôi đưa ra quyết định tốt hơn với ước tính giá trị không hoàn hảo, chúng tôi có thể tập trung vào các quỹ đạo hứa hẹn hơn, tiết kiệm thời gian và tính toán.

Thăm dò
Chỉ bao giờ thực hiện những gì chúng ta nghĩ là hành động "tốt nhất" trong một trạng thái nhất định thường không phải là một ý tưởng rất tốt. Khi lấy mẫu quỹ đạo thông qua trạng thái lớn và / hoặc không gian hành động, chiến lược này hoàn toàn có thể thất bại. Thực hiện các hành động thăm dò có thể giúp đảm bảo rằng các trạng thái giá trị cao được phát hiện ở tất cả. Quyết định khi nào nên khám phá và hành động nào cần thực hiện là lĩnh vực nghiên cứu tích cực. Tuy nhiên, nói chung, các hành động thăm dò là những hành động làm giảm sự không chắc chắn của tác nhân đối với môi trường.

Tiêm kiến ​​thức của con người
Cuối cùng, và có lẽ rõ ràng, việc giảm độ phức tạp thời gian của thuật toán RL có thể được thực hiện bằng cách cung cấp cho tác nhân nhiều thông tin hơn về thế giới. Điều này có thể được thực hiện bằng nhiều cách. Ví dụ, nếu sử dụng xấp xỉ hàm tuyến tính, một tác nhân có thể được cung cấp thông tin hữu ích thông qua các tính năng mà nó sử dụng. Nếu nó sử dụng một mô hình, mô hình có thể được khởi tạo với các mục sư hợp lý cho các phân phối xác suất chuyển tiếp và phần thưởng. "Phần thưởng định hình", thực hành kỹ thuật thủ công một chức năng phần thưởng (dày đặc) để tạo điều kiện học tập một nhiệm vụ cụ thể, là một cách tiếp cận tổng quát hơn. Một tác nhân cũng có thể học trực tiếp từ các cuộc biểu tình của con người với học tập củng cố ngược hoặc học bắt chước .


Tài liệu tham khảo
Tất cả các tài liệu tham khảo chưa được liên kết đến là các chương trong cuốn sách RL của Sutton và Barto .
[1] Xấp xỉ chức năng tuyến tính được thảo luận sâu trong Chương 9.
[2] Các phương pháp khác biệt của Monte Carlo và Tạm thời được thảo luận trong Chương 5 và 6.
[3] Các phương pháp dựa trên mô hình được thảo luận trong phần đầu của Chương 8.
[4 ] MCTS và tìm kiếm nói chung được thảo luận trong nửa sau của Chương 8.


Tôi nghĩ đây là một bài viết hay, nhưng có lẽ bạn cũng nên liệt kê một vài thuật toán cụ thể (nếu có) thực sự mở rộng tốt cho các vấn đề lớn, vì đây là câu hỏi thực tế. Ngay bây giờ, của bạn là một câu trả lời cho câu hỏi "các kỹ thuật có thể được sử dụng để mở rộng thuật toán RL cho các vấn đề lớn" là gì?
nbro

1
@nbro Tôi không biết bất kỳ tác nhân được triển khai nào sử dụng tất cả các kỹ thuật này. Nhưng nhiều bài báo tôi liên kết đến (DQN, HER, AlphaGo Zero) cung cấp đầy đủ thông số kỹ thuật của các tác nhân có quy mô tốt trong các vấn đề lớn.
Philip Raeisghasem
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.