Có rất nhiều cách tiếp cận bạn có thể thực hiện cho việc này. Có thể tạo ra một chất tương tự nhân tạo thực tế cho nỗi sợ hãi như được thực hiện về mặt sinh học ở động vật, nhưng có khá nhiều liên quan đến phản ứng sợ hãi của động vật thực sự sẽ không áp dụng trong các bot AI đơn giản hơn hiện có. Ví dụ, một động vật đi vào trạng thái sợ hãi thường sẽ sử dụng hormone để báo hiệu sự thay đổi trên khắp cơ thể của nó, ủng hộ chi tiêu tài nguyên và chấp nhận rủi ro ("chiến đấu hoặc bay").
Trong học tăng cường cơ bản, mạng lưới thần kinh sẽ không cần quyết định trực tiếp chuyển sang "chế độ sợ hãi". Thay vào đó, bạn có thể sử dụng một số thiết kế trong tác nhân và thuật toán học tập để giúp học hỏi từ các sự kiện hiếm gặp nhưng quan trọng. Dưới đây là một vài ý tưởng:
Kinh nghiệm chơi lại. Bạn có thể đã làm điều này trong kịch bản Pacman, nếu bạn đang sử dụng DQN hoặc một cái gì đó tương tự. Lưu trữ quá trình chuyển đổi trạng thái và phần thưởng gây ra phần thưởng tích cực hoặc tiêu cực lớn và học hỏi nhiều lần từ đó sẽ bù đắp cho mối quan tâm của bạn
Ưu tiên quét dọn. Bạn có thể sử dụng sự khác biệt lớn hơn có kinh nghiệm giữa phần thưởng dự đoán và phần thưởng thực tế để lấy mẫu thiên vị từ bộ nhớ phát lại của bạn đối với các sự kiện quan trọng và những sự kiện được liên kết chặt chẽ với chúng.
Lập kế hoạch. Với mô hình dự đoán - có thể dựa trên các chuyển đổi được lấy mẫu (bạn có thể sử dụng lại bộ nhớ phát lại trải nghiệm cho việc này) hoặc có thể là mạng dự đoán chuyển đổi trạng thái được đào tạo - sau đó bạn có thể xem trước nhiều bước bằng cách mô phỏng. Có một mối quan hệ mạnh mẽ giữa RL và lập kế hoạch về phía trước, chúng là thuật toán rất giống nhau. Sự khác biệt là trạng thái và hành động đang được xem xét, và liệu chúng đang được mô phỏng hoặc có kinh nghiệm. Kinh nghiệm phát lại làm mờ dòng ở đây - nó có thể được đóng khung như học từ bộ nhớ, hoặc cải thiện dự đoán để lập kế hoạch. Lập kế hoạch giúp bằng cách tối ưu hóa các quyết định mà không cần lặp lại kinh nghiệm nhiều - sự kết hợp giữa lập kế hoạch và học tập có thể mạnh mẽ hơn nhiều so với cách ly.
Lựa chọn hành động khám phá thông minh hơn. Epsilon tham lam, trong đó bạn hoặc có hành động tham lam hoặc thực hiện một hành động hoàn toàn ngẫu nhiên, hoàn toàn bỏ qua số tiền bạn có thể đã học về các hành động thay thế và công đức tương đối của họ. Bạn có thể sử dụng một cái gì đó như Upper Confidence Bound với một tác nhân dựa trên giá trị.
Trong một thế giới xác định, hãy tăng quy mô lô cho việc học và lập kế hoạch, vì bạn có thể tin tưởng rằng khi chuyển đổi được học một lần, bạn sẽ biết mọi thứ về nó.
Bạn sẽ cần phải thử nghiệm trong từng môi trường. Bạn có thể làm cho các tác nhân học tập thận trọng hơn về việc khám phá gần các khu vực thưởng thấp. Tuy nhiên, nếu môi trường là cần thiết phải chấp nhận rủi ro để có được phần thưởng tốt nhất (thường là trong các trò chơi) thì có thể không tối ưu về thời gian học để có một tác nhân "nhút nhát". Ví dụ trong ví dụ về Pacman của bạn, đôi khi những con ma nên tránh, đôi khi chúng nên bị truy đuổi. Nếu tác nhân học được ác cảm mạnh mẽ ban đầu, có thể mất nhiều thời gian để khắc phục điều này và học cách đuổi theo chúng sau khi ăn tăng sức mạnh.
Ví dụ về con nhện của bạn, với tư cách là người xây dựng thí nghiệm thì bạn biết rằng vết cắn là xấu mỗi lần và tác nhân phải tránh nó càng nhiều càng tốt. Đối với hầu hết các thuật toán RL, không có kiến thức như vậy, ngoại trừ có được thông qua kinh nghiệm. Một mô hình thế giới MDP không cần phải phù hợp với lẽ thường, có thể là do nhện cắn là xấu (-10 phần thưởng) 90% thời gian và 10% thời gian tốt (phần thưởng +1000). Các đặc vụ chỉ có thể khám phá điều này bằng cách bị cắn nhiều lần. . . RL thường không bắt đầu với bất kỳ hệ thống nào để đưa ra các giả định về loại điều này và không thể đưa ra một quy tắc chung về tất cả các MDP có thể. Thay vào đó, đối với một hệ thống RL cơ bản, bạn có thể xem xét sửa đổi siêu âm hoặc tập trung vào các sự kiện chính như được đề xuất ở trên. Bên ngoài một hệ thống RL cơ bản, có thể có công trong việc sao chép những thứ khác,