SARSA và Q Learning đều là các thuật toán học tăng cường hoạt động theo cách tương tự. Sự khác biệt nổi bật nhất là SARSA nằm trong chính sách trong khi Q Learning không có chính sách. Các quy tắc cập nhật như sau:
Học Q:
SARSA:
trong đó và là trạng thái, hành động và phần thưởng tại thời điểm bước và là một yếu tố giảm giá.
Chúng hầu như trông giống nhau ngoại trừ trong SARSA, chúng tôi thực hiện hành động thực tế và trong Q Learning, chúng tôi thực hiện hành động với phần thưởng cao nhất.
Có bất kỳ thiết lập lý thuyết hoặc thực tế nào trong đó một cái nên thích cái này hơn cái kia không? Tôi có thể thấy rằng việc sử dụng tối đa trong Q Learning có thể tốn kém và thậm chí nhiều hơn trong các không gian hành động liên tục. Nhưng còn gì nữa không?