Câu hỏi đầu tiên
Có sự khác biệt trong kiến trúc của việc học tăng cường sâu khi nhiều hành động được thực hiện thay vì một hành động không?
Cách đặt câu hỏi ngụ ý rằng truy vấn là về một hàm ý rời rạc, rằng một sự thay đổi kiến trúc là một điều bắt buộc. Không phải vì một hành động có thể bao gồm nhiều hành động, cho dù có hay không có sự phụ thuộc tuần tự vào các hành động thành phần. Trong trường hợp điều khiển hai tính chất vật lý, không gian điều khiển có hai bậc tự do. Rằng họ được kiểm soát bằng cách sử dụng các hiệu chỉnh rời rạc dẫn đến sự kết hợp của toán học liên tục và rời rạc, điều phổ biến trong kiểm soát.
Từ cơ thể và các ý kiến có khả năng tác giả câu hỏi là bí mật đối với những sự thật này. Một trong hai câu hỏi chính được mô tả là liệu lợi ích có thể đạt được với cấu trúc liên kết quy trình phức tạp hơn hay các ứng dụng chiến lược khác về kỳ vọng và toán phân phối xác suất. Lợi ích như vậy có thể đạt được.
- Phản ứng nhanh hơn (độ chính xác tạm thời)
- Độ chính xác trong theo dõi khách quan (không phụ thuộc vào thời gian)
- Theo dõi độ tin cậy (không mất tổng số đồng bộ hóa do bão hòa tín hiệu hoặc cắt)
- Lo ngại rủi ro (tránh xa sự mất mát không thể khắc phục trong không gian đường dẫn đặc trưng thưa thớt hoặc yếu)
Trong trường hợp nhiệt độ và vị trí, sự tinh tế tôpô hơn nữa là không thể.
Mục tiêu nghiên cứu dài hạn
Sau này trên con đường nghiên cứu, những thay đổi tô pô trong quá trình và luồng tín hiệu (sớm trong quá trình phát triển kiến trúc hệ thống) có thể sẽ có hiệu quả trong việc cải thiện chất lượng hệ thống. Điều này có khả năng dựa trên ý định đã nêu để sản xuất một bộ điều khiển học tập thông minh bằng cách sử dụng tốt nhất từ nhiều nguồn khái niệm.
- Tác nhân học tập củng cố độ dốc chính sách quyết định, bằng chứng về khái niệm này được hội tụ trong 30 tập với một mức độ tự do, vị trí
- Kiểm soát liên tục của Lilicrap với học tập củng cố sâu, 2015
- Các tác nhân thuật toán TRPO và PPO để thực hiện nhiều hành động liên tục, 2017
- Tesla megafactory
- Kiểm soát dự đoán bằng cách sử dụng tối ưu hóa quỹ đạo
- Phát triển mô hình tự động, tiến bộ
Cho dù có một điểm giao nhau của cả sáu mà lợi ích từ sự đóng góp của mỗi là không thể, nhưng một giả thuyết hợp lý để kiểm tra.
Quan tâm ngay lập tức
Mô tả về vấn đề hiện tại không liên quan chặt chẽ đến câu hỏi được nêu đầu tiên hoặc mục tiêu cuối cùng mà là sự bất thường trong bằng chứng hiện tại của khái niệm.
Việc thêm một mức độ tự do, nhiệt độ thứ hai, "Fail [s] khủng khiếp [và] chuyển hướng mạnh mẽ", trước khi đạt tới 1.000 tập thực sự là một sự bất thường. Việc tiêm -20 dB tiếng ồn Ornstein-Ulhenbeck được đo bằng biên độ trung bình (10%) để tránh các cạm bẫy tìm kiếm dường như không liên quan đến
Có sự khác biệt lớn nào giữa [độ tự do] và nhiều [độ tự do trong] DDPG không?
Chỉ khi người mở rộng phần mềm không thành thạo với tính toán đa biến.
Các biện pháp đã cố gắng dường như không tạo ra kết quả, điều này không đáng ngạc nhiên vì không có gì phải làm với nguyên nhân gốc rễ.
- Phần thưởng hành động tổng hợp chức năng
- Mạng lớn hơn
- Ưu tiên phát lại
- Kích hoạt tanh
- Hình phạt cho hành động lớn
Điều thứ sáu được đề cập có thể có nhiều khả năng khắc phục sự khác biệt.
- Giải thích mới về hành động và phần thưởng
Sự bất thường đặc biệt được mô tả, mặc dù không có nhiều chi tiết, chỉ ra một số nguyên nhân phổ biến của sự phân kỳ gộp bất ngờ.
- Xử lý sai một dấu trừ trong quá trình thực hiện phép tính hoặc đại số liên quan
- Một lỗ hổng trong một đạo hàm riêng
- Chỉ sử dụng đường chéo của Jacobian hoặc loại bỏ một số mẫu khác trong Jacobian trong ứng dụng của nó để báo hiệu điều chỉnh hoặc định lượng dự đoán