Tại sao chữ Q được chọn trong tên của Q-learning?
Hầu hết các chữ cái được chọn là một từ viết tắt, chẳng hạn như viết tắt của cho chính sách và là viết tắt của giá trị. Nhưng tôi không nghĩ Q là từ viết tắt của bất kỳ từ nào.
Tại sao chữ Q được chọn trong tên của Q-learning?
Hầu hết các chữ cái được chọn là một từ viết tắt, chẳng hạn như viết tắt của cho chính sách và là viết tắt của giá trị. Nhưng tôi không nghĩ Q là từ viết tắt của bất kỳ từ nào.
Câu trả lời:
Tôi xin lỗi đã làm mọi người thất vọng, nhưng Q không ủng hộ bất cứ điều gì :)
Q-learning được Watkins đề xuất trong luận án tiến sĩ năm 1989, xem tr.96. Q trong phương trình trên trang đó được cập nhật theo cách nhất định tại mỗi bước. Q là lợi nhuận kỳ vọng từ hành động ở một trạng thái nhất định, xem định nghĩa của Q trên tr.46. Sự trở lại là trong một ý nghĩa lý thuyết kinh tế hoặc trò chơi, tức là phần thưởng xác suất giảm giá, không phải là một thuật ngữ khoa học máy tính như sự trở lại từ một chức năng.
Lưu ý, làm thế nào anh ta đã sử dụng P cho xác suất và R cho phần thưởng, vì vậy anh ta đã lấy Q để trả lại. Đó là nó. Không có ý nghĩa sâu sắc hơn cho việc lựa chọn một chữ cái Q.
Lý do Q-Learning được gọi như vậy vì nó sử dụng các giá trị Q để hình thành ước tính của nó. Nguyên tắc học tập thông thường là, và cần phải rõ ràng tại sao nó được gọi là Q-Learning.
Nhưng câu hỏi thực tế theo quan điểm của tôi là tại sao Q-Learning được gọi như vậy. Mặc dù dường như không có câu trả lời thỏa đáng, liên kết này đề cập đến việc Andrew Barto , một trong những người sáng lập Học tập Củng cố Hiện đại, cho rằng là viết tắt của Chất lượng, được gọi như vậy bởi vì nó đặc trưng cho kết quả của việc kéo một cánh tay sẽ tốt như thế nào là.