Thuật toán Q-learning dạng bảng được đảm bảo để tìm hàm tối ưu , , với các điều kiện sau (điều kiện Robbins-Monro ) về tốc độ học tập được thỏa mãn
trong đó có nghĩa là tốc độ học được sử dụng khi cập nhật giá trị liên kết với trạng thái và hành động tại thời điểm bước , trong đó được coi là đúng, cho tất cả các tiểu bang và hành động .
Rõ ràng, với , để hai điều kiện là đúng, tất cả các cặp hành động nhà nước phải được truy cập vô hạn thường xuyên: điều này cũng được nêu trong cuốn sách Học tăng cường: Giới thiệu , ngoài thực tế là điều này nên được biết đến rộng rãi và đó là lý do căn bản đằng sau việc sử dụng chính sách tham gia (hoặc chính sách tương tự) trong quá trình đào tạo.
Một bằng chứng đầy đủ cho thấy -learning tìm thấy chức năng tối ưu có thể được tìm thấy trong bài báo Sự hội tụ của Q-learning: A Simple Proof (của Francisco S. Melo). Anh ta sử dụng các khái niệm như ánh xạ co để xác định hàm tối ưu (xem thêm Toán tử Bellman trong học tăng cường là gì? ), Đây là một điểm cố định của toán tử co này. Ông cũng sử dụng một định lý (số 2) liên quan đến quá trình ngẫu nhiên hội tụ về , đưa ra một vài giả định. (Bằng chứng có thể không dễ thực hiện nếu bạn không phải là người giỏi toán.)
Nếu một mạng nơ ron được sử dụng để biểu diễn chức năng , các đảm bảo hội tụ của -learning có còn giữ không? Tại sao (hoặc không) Q-learning hội tụ khi sử dụng xấp xỉ hàm? Có bằng chứng chính thức nào về sự không hội tụ của -learning bằng cách sử dụng xấp xỉ hàm không?
Tôi đang tìm kiếm các loại câu trả lời khác nhau, từ những câu trả lời trực giác đằng sau sự không hội tụ của -learning khi sử dụng xấp xỉ hàm cho những bằng chứng cung cấp bằng chứng chính thức (hoặc liên kết đến một bài báo với bằng chứng chính thức).