Vấn đề chính với việc học TD và DP là các cập nhật bước của họ bị sai lệch về các điều kiện ban đầu của các tham số học tập. Quá trình bootstrapping thường cập nhật một hàm hoặc tra cứu Q (s, a) trên giá trị kế tiếp Q (s ', a') bằng cách sử dụng bất kỳ ước tính hiện tại nào ở sau. Rõ ràng khi bắt đầu học những ước tính này không chứa thông tin từ bất kỳ phần thưởng thực tế hoặc chuyển đổi trạng thái nào.
Nếu việc học hoạt động như dự định, thì sự thiên vị sẽ giảm không có triệu chứng qua nhiều lần lặp. Tuy nhiên, sự thiên vị có thể gây ra các vấn đề đáng kể, đặc biệt là đối với các phương pháp ngoài chính sách (ví dụ: Q Learning) và khi sử dụng các hàm xấp xỉ hàm. Sự kết hợp đó rất có khả năng không hội tụ đến mức nó được gọi là bộ ba chết người trong Sutton & Bart.
Các phương pháp kiểm soát Monte Carlo không bị sai lệch này, vì mỗi bản cập nhật được thực hiện bằng cách sử dụng một mẫu thực sự của Q (s, a). Tuy nhiên, phương pháp Monte Carlo có thể bị phương sai cao, điều đó có nghĩa là cần nhiều mẫu hơn để đạt được mức độ học tập tương tự so với TD.
Trong thực tế, học TD dường như học hiệu quả hơn nếu các vấn đề với bộ ba chết người có thể được khắc phục. Các kết quả gần đây sử dụng phát lại kinh nghiệm và các bản sao dự toán "đóng băng" cung cấp các giải pháp giải quyết các vấn đề - ví dụ: đó là cách người học DQN cho các trò chơi Atari được xây dựng.
Ngoài ra còn có một khu vực giữa giữa TD và Monte Carlo. Có thể xây dựng một phương pháp tổng quát kết hợp các quỹ đạo có độ dài khác nhau - từ TD một bước đến hoàn thành các tập chạy ở Monte Carlo - và kết hợp chúng. Biến thể phổ biến nhất của điều này là học TD ( ), trong đó là một tham số từ (học TD một bước hiệu quả) đến (học hiệu quả Monte Carlo, nhưng với một tính năng hay mà nó có thể được sử dụng liên tục các vấn đề). Thông thường, giá trị từ đến làm cho tác nhân học tập hiệu quả nhất - mặc dù giống như nhiều siêu âm, giá trị tốt nhất để sử dụng phụ thuộc vào vấn đề.λ 0 1 0 1λλ0101
Nếu bạn đang sử dụng phương pháp dựa trên giá trị (trái ngược với phương pháp dựa trên chính sách), thì việc học TD thường được sử dụng nhiều hơn trong thực tế hoặc phương pháp kết hợp TD / MC như TD () thậm chí còn tốt hơn.
Xét về "lợi thế thực tế" cho MC? Học tập Monte Carlo về mặt khái niệm đơn giản, mạnh mẽ và dễ thực hiện, mặc dù thường chậm hơn TD. Nói chung tôi sẽ không sử dụng nó cho một công cụ điều khiển học tập (trừ khi vội vàng thực hiện một cái gì đó cho một môi trường đơn giản), nhưng tôi sẽ nghiêm túc xem xét nó để đánh giá chính sách để so sánh nhiều tác nhân - đó là do nó là một biện pháp không thiên vị, đó là quan trọng để thử nghiệm.