Tại sao chữ Q được chọn trong Q-learning?


17

Tại sao chữ Q được chọn trong tên của Q-learning?

Hầu hết các chữ cái được chọn là một từ viết tắt, chẳng hạn như viết tắt của π cho chính sách và v là viết tắt của giá trị. Nhưng tôi không nghĩ Q là từ viết tắt của bất kỳ từ nào.


1
Theo cách hiểu ẩn dụ của tôi, Q là một hàm liên kết một đại lượng (gọi đó là phần thưởng, chi phí hoặc bất cứ điều gì khác đang được tối ưu hóa) cho một hành động trong một trạng thái nhất định.
knk

1
@sycorax câu hỏi ban đầu đóng khung ngụ ý sự hiểu biết về Q-learning và để đưa ra lời giải thích, nó sẽ giúp thêm ngữ cảnh. OP sẽ bị mất với bất kỳ lời giải thích nào mà không thiết lập một nền tảng.
knk

Liệu ẩn dụ Q = Số lượng có giúp được không? Tôi nghĩ về nó như một sự định lượng của các hành động được đưa ra
knk

Câu trả lời:


35

Tôi xin lỗi đã làm mọi người thất vọng, nhưng Q không ủng hộ bất cứ điều gì :)

Q-learning được Watkins đề xuất trong luận án tiến sĩ năm 1989, xem tr.96. Q trong phương trình trên trang đó được cập nhật theo cách nhất định tại mỗi bước. Q là lợi nhuận kỳ vọng từ hành động ở một trạng thái nhất định, xem định nghĩa của Q trên tr.46. Sự trở lại là trong một ý nghĩa lý thuyết kinh tế hoặc trò chơi, tức là phần thưởng xác suất giảm giá, không phải là một thuật ngữ khoa học máy tính như sự trở lại từ một chức năng.

Lưu ý, làm thế nào anh ta đã sử dụng P cho xác suất và R cho phần thưởng, vì vậy anh ta đã lấy Q để trả lại. Đó là nó. Không có ý nghĩa sâu sắc hơn cho việc lựa chọn một chữ cái Q.


3
Không có ý nghĩa sâu sắc hơn nhưng đó một ý nghĩa (Q phù hợp với P và R trong bảng chữ cái) và là viết tắt của một cái gì đó .
Sextus Empiricus

2
@MartijnWeterings Nó không có nghĩa gì cả. Đó là một sự lựa chọn hoàn toàn cú pháp của thư, không có sự cân nhắc về ngữ nghĩa nào.
David Richerby

Chắc chắn, có thể có một vài cân nhắc về ngữ nghĩa (và điều này có thể được tranh luận bởi vì sự khác biệt giữa các chữ cái Latinh hoặc Hy Lạp, các chữ cái ở các vị trí khác nhau của bảng chữ cái hoặc chữ hoa so với chữ thường có thể tạo thành một vùng màu xám giữa cú pháp và ngữ nghĩa). Tôi coi việc lựa chọn Q là "có ý nghĩa" bởi vì hình thức của chữ cái (có phần tùy ý) thể hiện với một số mở rộng ý nghĩa của biến / tham số. Ý nghĩa liên quan đến sự lựa chọn của chữ. Sẽ không phải là một lựa chọn tốt khi u hoặc v sẽ được chọn, hoặc i, j, k hay x, y, z hoặc . α,β,γ
Sextus Empiricus

@MartijnWeterings, Q cũng giống như một hàng đợi , điều này cũng mang đến một số ý nghĩa có liên quan
Aksakal

@Aksakal, điều đó có thể đã củng cố việc sử dụng Q. Nhưng, tôi không nghĩ nó mạnh. Tôi không biết nhiều về chủ đề này, nhưng trong một tổng quan nhanh về luận điểm đó với tôi, có vẻ rất hợp lý rằng chữ đã được sử dụng cho một số lượng như i R i P i hoặc i V i P i . Cuối cùng, 'một số tên' như 'giá trị hành động' đã được đặt cho nó nhưng những chữ cái được sử dụng trong luận án đó dường như dính nhiều hơn vào bảng chữ cái. Ví dụ: f g h cho các hàm x y cho các biến V UQiRiPiiViPif g hx yV U cho hàm giá trị và nó gần đúng. , Vân vân.
Sextus Empiricus

0

Lý do Q-Learning được gọi như vậy vì nó sử dụng các giá trị Q để hình thành ước tính của nó. Nguyên tắc học tập thông thường là, và cần phải rõ ràng tại sao nó được gọi là Q-Learning.Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Nhưng câu hỏi thực tế theo quan điểm của tôi là tại sao Q-Learning được gọi như vậy. Mặc dù dường như không có câu trả lời thỏa đáng, liên kết này đề cập đến việc Andrew Barto , một trong những người sáng lập Học tập Củng cố Hiện đại, cho rằng là viết tắt của Chất lượng, được gọi như vậy bởi vì nó đặc trưng cho kết quả của việc kéo một cánh tay sẽ tốt như thế nào là.Q


2
Đọc luận điểm đó và cho tôi biết "chất lượng" có ý nghĩa như thế nào trong bối cảnh lợi nhuận kỳ vọng
Aksakal

Mặc dù tôi đồng ý với bạn, luận án được viết sau khi Watkins hỏi ý kiến ​​Andy về một số điều. Andy có thể đã có một ý tưởng tốt hơn bạn nghĩ.
Ameet Deshpande

Chất lượng thậm chí không tồn tại như một khái niệm khác biệt trong học tập. Bạn có thể sử dụng từ này theo nghĩa thông thường từ tiếng Anh, tất nhiên. Mặt khác, lợi nhuận kỳ vọng được xác định rất rõ trong lý thuyết trò chơi, không cần phải pha loãng nó bằng cách đính kèm các khái niệm mơ hồ như chất lượng. Bạn không tối đa hóa chất lượng, bạn đang tối đa hóa phần thưởng giảm giá theo thước đo xác suất phù hợp. Nếu bạn muốn rộng hơn một chút, thì bạn có thể tối đa hóa tiện ích.
Aksakal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.