Có sự khác biệt trong kiến ​​trúc của việc học tăng cường sâu khi nhiều hành động được thực hiện thay vì một hành động không?


7

Tôi đã xây dựng một tác nhân học tập củng cố độ dốc chính sách xác định sâu để có thể xử lý bất kỳ trò chơi / nhiệm vụ nào chỉ có một hành động. Tuy nhiên, tác nhân dường như thất bại khủng khiếp khi có hai hoặc nhiều hành động. Tôi đã cố gắng tìm kiếm bất kỳ ví dụ nào về việc ai đó thực hiện DDPG trên một hệ thống nhiều hành động, nhưng mọi người chủ yếu áp dụng nó cho vấn đề con lắc, đây là một vấn đề hành động đơn lẻ.

Đối với hệ thống hiện tại của tôi, đó là hệ thống 3 trạng thái, 2 hành động điều khiển liên tục (Một là điều chỉnh nhiệt độ của hệ thống, một là điều chỉnh vị trí cơ học, cả hai đều liên tục). Tuy nhiên, tôi đóng băng hành động liên tục thứ hai để trở thành hành động tối ưu mọi lúc. Vì vậy, RL chỉ phải thao tác một hành động. Nó giải quyết trong vòng 30 tập. Tuy nhiên, thời điểm tôi cho phép RL thử cả hai hành động liên tục, nó thậm chí không hội tụ sau 1000 tập. Trong thực tế, nó phân kỳ tích cực. Đầu ra của mạng diễn viên dường như luôn là hành động tối đa, có thể là do tôi đang sử dụng kích hoạt tanh cho diễn viên để cung cấp ràng buộc đầu ra. Tôi đã thêm một hình phạt cho các hành động lớn, nhưng dường như nó không hoạt động đối với 2 trường hợp hành động kiểm soát liên tục.

Đối với tiếng ồn khám phá của tôi, tôi đã sử dụng tiếng ồn Ornstein-Ulhenbeck, với phương tiện được điều chỉnh cho hai hành động liên tục khác nhau. Giá trị trung bình của nhiễu là 10% giá trị trung bình của hành động.

Có sự khác biệt lớn nào giữa DDPG hành động đơn và nhiều hành động không? Tôi đã thay đổi chức năng phần thưởng để tính đến cả hai hành động, đã thử tạo một mạng lớn hơn, thử phát lại ưu tiên, v.v., nhưng có vẻ như tôi đang thiếu một cái gì đó. Có ai ở đây có kinh nghiệm xây dựng một DDPG nhiều hành động và có thể cho tôi một số gợi ý không?


1
Về mặt kỹ thuật, sự khác biệt ở đây là giữa các hành động trong (một số tập hợp con) và , không phải giữa 1 hoặc nhiều "hành động". Nói cách khác, bạn có một không gian hành động ở đây có thể có nhiều thứ nguyên và có điều gì đó không ổn cho đại lý của bạn khi có 2 chiều trở lên. Trong RL, khi một cái gì đó được mô tả là "có 2 hành động" thì đây thường là một phép liệt kê - tức là tác nhân có thể thực hiện hành động A hoặc hành động B và không có số lượng liên quan. RRn
Neil Slater

2
Xin chào Neil, cảm ơn bạn đã trả lời. Vâng, đối với RL cổ điển, hành động của các tác nhân thực sự là rời rạc. Tuy nhiên, vào năm 2015, Lilicrap đã xuất bản một bài báo gọi là "điều khiển liên tục với học tập củng cố sâu", và sau đó vào năm 2017, thuật toán TRPO và PPO được thiết kế để cho phép các tác nhân thực hiện nhiều hành động liên tục. Vì vậy, bạn là chính xác về hành động của tôi trong một không gian chiều cao. Trong nghiên cứu của tôi, tôi đang so sánh điều khiển dự báo mô hình bằng cách sử dụng tối ưu hóa quỹ đạo và điều khiển dựa trên AI. Thông thường, trong robot và cơ điện tử, robot di chuyển nhiều mảnh. Tôi đang cố gắng để đạt được điều đó với RL.
Rui Nian

1
Tôi đề nghị bạn chỉnh sửa một mô tả chính xác hơn về vấn đề RL của bạn để thay thế câu "Đối với hệ thống hiện tại của tôi, đó là hệ thống 3 trạng thái, 2 hành động". - bởi vì đó không phải là cách nó sẽ được mô tả trong bất kỳ tài liệu nào. Cũng có thể đáng để giải thích cách bạn đã điều chỉnh chức năng thăm dò ("tiếng ồn diễn viên"), vì một sai lầm sẽ có chìa khóa.
Neil Slater

1
Làm xong! Tôi cũng sẽ thử tiếng ồn khám phá khác nhau để xem nếu nó giúp.
Rui Nian

1
Cảm ơn. Tôi đã tự hỏi nếu bạn bằng cách nào đó đã thất bại trong việc điều chỉnh các thang đo khác nhau của hai trục hành động, nhưng nó không giống như vậy. Tôi thực sự không thể nói điều gì là sai. Tuy nhiên, cá nhân tôi không mong đợi DDPG sẽ khá mong manh khi nhân rộng từ một đến hai chiều hành động, vì vậy tôi vẫn nghi ngờ điều gì đó về việc triển khai của bạn - Tôi chỉ không biết nó có thể là gì.
Neil Slater

Câu trả lời:


1

Câu hỏi đầu tiên

Có sự khác biệt trong kiến ​​trúc của việc học tăng cường sâu khi nhiều hành động được thực hiện thay vì một hành động không?

Cách đặt câu hỏi ngụ ý rằng truy vấn là về một hàm ý rời rạc, rằng một sự thay đổi kiến ​​trúc là một điều bắt buộc. Không phải vì một hành động có thể bao gồm nhiều hành động, cho dù có hay không có sự phụ thuộc tuần tự vào các hành động thành phần. Trong trường hợp điều khiển hai tính chất vật lý, không gian điều khiển có hai bậc tự do. Rằng họ được kiểm soát bằng cách sử dụng các hiệu chỉnh rời rạc dẫn đến sự kết hợp của toán học liên tục và rời rạc, điều phổ biến trong kiểm soát.

Từ cơ thể và các ý kiến ​​có khả năng tác giả câu hỏi là bí mật đối với những sự thật này. Một trong hai câu hỏi chính được mô tả là liệu lợi ích có thể đạt được với cấu trúc liên kết quy trình phức tạp hơn hay các ứng dụng chiến lược khác về kỳ vọng và toán phân phối xác suất. Lợi ích như vậy có thể đạt được.

  • Phản ứng nhanh hơn (độ chính xác tạm thời)
  • Độ chính xác trong theo dõi khách quan (không phụ thuộc vào thời gian)
  • Theo dõi độ tin cậy (không mất tổng số đồng bộ hóa do bão hòa tín hiệu hoặc cắt)
  • Lo ngại rủi ro (tránh xa sự mất mát không thể khắc phục trong không gian đường dẫn đặc trưng thưa thớt hoặc yếu)

Trong trường hợp nhiệt độ và vị trí, sự tinh tế tôpô hơn nữa là không thể.

Mục tiêu nghiên cứu dài hạn

Sau này trên con đường nghiên cứu, những thay đổi tô pô trong quá trình và luồng tín hiệu (sớm trong quá trình phát triển kiến ​​trúc hệ thống) có thể sẽ có hiệu quả trong việc cải thiện chất lượng hệ thống. Điều này có khả năng dựa trên ý định đã nêu để sản xuất một bộ điều khiển học tập thông minh bằng cách sử dụng tốt nhất từ ​​nhiều nguồn khái niệm.

  • Tác nhân học tập củng cố độ dốc chính sách quyết định, bằng chứng về khái niệm này được hội tụ trong 30 tập với một mức độ tự do, vị trí
  • Kiểm soát liên tục của Lilicrap với học tập củng cố sâu, 2015
  • Các tác nhân thuật toán TRPO và PPO để thực hiện nhiều hành động liên tục, 2017
  • Tesla megafactory
  • Kiểm soát dự đoán bằng cách sử dụng tối ưu hóa quỹ đạo
  • Phát triển mô hình tự động, tiến bộ

Cho dù có một điểm giao nhau của cả sáu mà lợi ích từ sự đóng góp của mỗi là không thể, nhưng một giả thuyết hợp lý để kiểm tra.

Quan tâm ngay lập tức

Mô tả về vấn đề hiện tại không liên quan chặt chẽ đến câu hỏi được nêu đầu tiên hoặc mục tiêu cuối cùng mà là sự bất thường trong bằng chứng hiện tại của khái niệm.

Việc thêm một mức độ tự do, nhiệt độ thứ hai, "Fail [s] khủng khiếp [và] chuyển hướng mạnh mẽ", trước khi đạt tới 1.000 tập thực sự là một sự bất thường. Việc tiêm -20 dB tiếng ồn Ornstein-Ulhenbeck được đo bằng biên độ trung bình (10%) để tránh các cạm bẫy tìm kiếm dường như không liên quan đến

Có sự khác biệt lớn nào giữa [độ tự do] và nhiều [độ tự do trong] DDPG không?

Chỉ khi người mở rộng phần mềm không thành thạo với tính toán đa biến.

Các biện pháp đã cố gắng dường như không tạo ra kết quả, điều này không đáng ngạc nhiên vì không có gì phải làm với nguyên nhân gốc rễ.

  • Phần thưởng hành động tổng hợp chức năng
  • Mạng lớn hơn
  • Ưu tiên phát lại
  • Kích hoạt tanh
  • Hình phạt cho hành động lớn

Điều thứ sáu được đề cập có thể có nhiều khả năng khắc phục sự khác biệt.

  • Giải thích mới về hành động và phần thưởng

Sự bất thường đặc biệt được mô tả, mặc dù không có nhiều chi tiết, chỉ ra một số nguyên nhân phổ biến của sự phân kỳ gộp bất ngờ.

  • Xử lý sai một dấu trừ trong quá trình thực hiện phép tính hoặc đại số liên quan
  • Một lỗ hổng trong một đạo hàm riêng
  • Chỉ sử dụng đường chéo của Jacobian hoặc loại bỏ một số mẫu khác trong Jacobian trong ứng dụng của nó để báo hiệu điều chỉnh hoặc định lượng dự đoán

Xin chào Douglas, cảm ơn đã trả lời. Bạn trả lời chắc chắn rất hữu ích. Vấn đề thực sự nảy sinh từ các trạng thái gió tích hợp. Hiện tại, bạn có biết phương pháp nào có thể xử lý các trạng thái gió tích hợp không? Cảm ơn một lần nữa cho câu trả lời của bạn!
Rui Nian

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.