Học tập đề cập đến bất kỳ thuật toán nào tinh chỉnh niềm tin về thế giới thông qua việc tiếp xúc với trải nghiệm hoặc ví dụ về trải nghiệm của người khác. Các thuật toán học tập không có cha mẹ rõ ràng, vì chúng được phát triển riêng trong nhiều trường con hoặc ngành khác nhau. Một phân loại hợp lý là mô hình 5 bộ lạc . Một số thuật toán học tập thực sự sử dụng tìm kiếm trong chính họ để tìm ra cách thay đổi niềm tin của họ để đáp ứng với trải nghiệm mới!
Một ví dụ về thuật toán học được sử dụng ngày nay là Q-learning , là một phần của họ thuật toán học tăng cường nói chung . Q-learning hoạt động như thế này:
a. Chương trình học tập (thường được gọi là tác nhân ) được đưa ra một đại diện cho tình trạng hiện tại của thế giới và một danh sách các hành động mà nó có thể chọn để thực hiện.
b. Nếu tác nhân chưa từng thấy trạng thái này của thế giới trước đó, nó sẽ gán một số ngẫu nhiên cho phần thưởng mà họ mong đợi nhận được khi thực hiện mỗi hành động. Nó lưu trữ số này như , đoán nó ở chất lượng thực hiện hành động trong tiểu bang .Q ( s , a )mộtS
c. Tác nhân nhìn vào cho mỗi hành động mà nó có thể thực hiện. Nó chọn hành động tốt nhất với một số xác suất và hành động ngẫu nhiên.Q ( s , a )ε
d. Hành động của tác nhân khiến thế giới thay đổi và có thể dẫn đến việc tác nhân nhận được phần thưởng từ môi trường. Người đại diện ghi chú xem liệu nó có được phần thưởng không (và phần thưởng là bao nhiêu), và trạng thái mới của thế giới là như thế nào. Sau đó, nó điều chỉnh niềm tin của mình về chất lượng thực hiện hành động mà nó đã thực hiện ở trạng thái trước đây, để niềm tin của họ về chất lượng của hành động đó gần với thực tế của phần thưởng và chất lượng của nó đã kết thúc.
e. Các đại lý lặp lại các bước bd mãi mãi. Theo thời gian, niềm tin của nó về chất lượng của các cặp trạng thái / hành động khác nhau sẽ hội tụ để phù hợp với thực tế ngày càng chặt chẽ hơn.