Câu trả lời:
DP giải quyết cho hàm chính sách hoặc giá trị tối ưu bằng cách đệ quy. Nó đòi hỏi kiến thức về quá trình quyết định markov (MDP) hoặc một mô hình của thế giới để có thể thực hiện các cuộc thu hồi. Nó thường được gộp trong "lập kế hoạch" thay vì "học", trong đó bạn đã biết MDP, và chỉ cần tìm ra những việc cần làm (tối ưu).
TD không có mô hình: nó không đòi hỏi kiến thức về một mô hình của thế giới. Nó được lặp lại, và dựa trên mô phỏng, và học bằng cách bootstrapping, tức là giá trị của trạng thái hoặc hành động được ước tính bằng cách sử dụng các giá trị của trạng thái hoặc hành động khác.
Để biết thêm thông tin, xem: