Phương pháp hiện tại để thực hiện động lực là một số loại phần thưởng nhân tạo. Ví dụ , DQN của Deepmind được điều khiển bởi điểm số của trò chơi. Điểm càng cao thì càng tốt. AI học cách điều chỉnh hành động của mình để có được nhiều điểm nhất và do đó phần thưởng cao nhất. Điều này được gọi là gia cố kéo dài . Phần thưởng thúc đẩy AI thích nghi với hành động của nó, có thể nói như vậy.
Trong một thuật ngữ kỹ thuật hơn, AI muốn tối đa hóa tiện ích, phụ thuộc vào chức năng tiện ích được triển khai . Trong trường hợp của DQN, điều này sẽ tối đa hóa điểm số trong trò chơi.
Bộ não con người hoạt động theo kiểu tương tự, mặc dù phức tạp hơn một chút và thường không thẳng tiến. Chúng ta là con người thường cố gắng điều chỉnh hành động của mình để tạo ra sản lượng cao dopamine và serotonin . Đây là một cách tương tự như phần thưởng được sử dụng để kiểm soát AI trong quá trình học tập củng cố. Bộ não con người học được những hành động nào tạo ra lượng chất đó nhiều nhất và tìm ra các chiến lược để tối đa hóa sản lượng. Tất nhiên, đây là một sự đơn giản hóa của quá trình phức tạp này, nhưng bạn có được hình ảnh.
Khi bạn nói về động lực, xin vui lòng không trộn lẫn nó với ý thức hoặc Qualia . Những người không cần thiết cho động lực ở tất cả. Nếu bạn muốn thảo luận về ý thức và chất lượng trong AI, đó là một trò chơi bóng hoàn toàn khác.
Một đứa trẻ không tò mò vì tò mò. Nó được củng cố tích cực khi khám phá vì chức năng tiện ích của việc khám phá não bộ của trẻ bằng cách giải phóng các chất dẫn truyền thần kinh bổ ích. Vì vậy cơ chế là như nhau. Áp dụng điều này cho AI có nghĩa là xác định chức năng tiện ích thưởng cho những trải nghiệm mới. Không có ổ đĩa bên trong mà không có một số loại phần thưởng củng cố.