Câu 1: Có các phương pháp phổ biến hoặc được chấp nhận để xử lý môi trường không cố định trong học tập Củng cố nói chung không?
Hầu hết các tác nhân RL cơ bản là trực tuyến, và học trực tuyến thường có thể giải quyết các vấn đề không cố định. Ngoài ra, các quy tắc cập nhật cho các ước tính giá trị trạng thái và giá trị hành động trong các vấn đề kiểm soát thường được viết cho các mục tiêu không cố định, bởi vì các mục tiêu đã thay đổi khi chính sách được cải thiện. Điều này không có gì phức tạp, chỉ đơn giản là sử dụng tỷ lệ học tập trong các bản cập nhật khi ước tính giá trị, thực sự có ý nghĩa hình học trái ngược với trung bình trên tất cả lịch sử theo kiểu không trọng số.α
Tuy nhiên , điều này giải quyết vấn đề không cố định lâu dài hơn, chẳng hạn như vấn đề thay đổi giữa các tập hoặc theo thang thời gian thậm chí dài hơn. Mô tả của bạn trông giống như bạn muốn thay đổi cấu trúc phần thưởng dựa trên các hành động mà đại lý đã thực hiện, trong một khoảng thời gian ngắn. Phản ứng động đối với các hành động được đóng khung tốt hơn như là một MDP phức tạp khác, không phải là "không cố định" trong MDP đơn giản hơn.
Một tác nhân không thể tìm hiểu các thay đổi đối với môi trường mà nó chưa được lấy mẫu, do đó, việc thay đổi cấu trúc phần thưởng sẽ không ngăn tác nhân quay trở lại trạng thái đã truy cập trước đó. Trừ khi bạn đang sử dụng một cái gì đó giống như RNN trong tác nhân, tác nhân sẽ không có "bộ nhớ" về những gì đã xảy ra trước đó trong tập phim, ngoại trừ bất cứ điều gì được thể hiện trong trạng thái hiện tại (có thể sử dụng RNN làm cho lớp ẩn của phần RNN của nhà nước). Trên nhiều tập, nếu bạn sử dụng tác nhân Q-learning dạng bảng, thì tác nhân đó sẽ chỉ đơn giản biết rằng một số trạng thái nhất định có giá trị thấp, sẽ không thể biết rằng các lần truy cập thứ hai hoặc thứ ba đến trạng thái đó gây ra hiệu ứng đó, bởi vì nó không có cách để thể hiện kiến thức đó. Nó sẽ không thể điều chỉnh thay đổi đủ nhanh để học trực tuyến và giữa tập.
Q2: Trong thế giới lưới của tôi, tôi có chức năng phần thưởng thay đổi khi một trạng thái được truy cập. Tất cả những gì tôi muốn đại lý của mình học là "Đừng quay lại trừ khi bạn thực sự cần", tuy nhiên điều này làm cho môi trường không ổn định.
Nếu đó là tất cả những gì bạn cần để học hỏi, có lẽ điều này có thể được khuyến khích bởi một cấu trúc phần thưởng phù hợp. Trước khi bạn có thể làm điều đó, bạn cần phải hiểu chính mình "thực sự cần phải" ngụ ý gì và chặt chẽ đến mức nào phải hợp lý. Bạn có thể ổn dù chỉ bằng cách chỉ định một số hình phạt cho việc truy cập bất kỳ vị trí nào mà đại lý đã hoặc gần đây đã truy cập.
Có thể / Có nên kết hợp quy tắc rất đơn giản này trong mô hình MDP không và bằng cách nào?
Có, bạn nên thêm thông tin về các địa điểm được truy cập vào tiểu bang. Điều này ngay lập tức sẽ làm cho mô hình trạng thái của bạn phức tạp hơn một thế giới lưới đơn giản, làm tăng tính chiều của vấn đề, nhưng điều đó là không thể tránh khỏi. Hầu hết các vấn đề trong thế giới thực rất nhanh vượt xa các ví dụ đồ chơi được cung cấp để dạy các khái niệm RL.
Một cách khác là đóng khung vấn đề dưới dạng Quy trình Quyết định Markov có thể quan sát được một phần (POMDP) . Trong trường hợp đó, trạng thái "thật" vẫn sẽ bao gồm tất cả lịch sử cần thiết để tính toán phần thưởng (và vì đây là sự cố đồ chơi trên máy tính mà bạn vẫn phải trình bày bằng cách nào đó), nhưng tác nhân có thể cố gắng học hỏi từ bị hạn chế kiến thức về nhà nước, chỉ cần bất cứ điều gì bạn để nó quan sát. Nói chung, đây là một cách tiếp cận khó hơn nhiều so với việc mở rộng đại diện nhà nước và tôi không khuyến nghị ở đây. Tuy nhiên, nếu bạn thấy ý tưởng này thú vị, bạn có thể sử dụng vấn đề của mình để khám phá POMDP. Đây là một bài báo gần đây (từ nhóm Deep Mind của Google, 2015) xem xét hai thuật toán RL kết hợp với RNN để giải quyết POMDP.
Câu 3: Tôi đã xem xét Q-learning với kinh nghiệm phát lại như một giải pháp để đối phó với các môi trường không cố định, vì nó giải mã các bản cập nhật liên tiếp. Đây có phải là cách sử dụng đúng của phương pháp hay nó là nhiều hơn để đối phó với việc làm cho việc học hiệu quả hơn?
Kinh nghiệm phát lại sẽ không giúp đỡ với môi trường không cố định. Trong thực tế, nó có thể làm cho hiệu suất tồi tệ hơn trong họ. Tuy nhiên, như đã nêu, vấn đề của bạn không thực sự là về một môi trường không cố định, mà là về việc xử lý các động thái trạng thái phức tạp hơn.
Những gì bạn có thể cần làm là xem xét gần đúng chức năng, nếu số lượng trạng thái tăng lên một số lượng đủ lớn. Ví dụ: nếu bạn muốn xử lý bất kỳ theo dõi ngược nào và có quy tắc sửa đổi phần thưởng phức tạp theo dõi từng vị trí được truy cập, thì trạng thái của bạn có thể thay đổi từ một số vị trí thành bản đồ hiển thị các vị trí đã truy cập. Vì vậy, ví dụ, nó có thể đi từ tiểu bang cho thế giới lưới đến bản đồ trạng thái hiển thị các ô vuông đã truy cập. Điều này là quá cao để theo dõi trong một bảng giá trị, vì vậy bạn thường sẽ sử dụng mạng thần kinh (hoặc mạng thần kinh tích chập) để ước tính các giá trị trạng thái thay thế.8 × 8 2 64648 × 8264
Với một công cụ ước tính chức năng, phát lại kinh nghiệm là rất hữu ích, vì nếu không có nó, quá trình học tập có thể không ổn định. Cách tiếp cận DQN gần đây để chơi các trò chơi Atari sử dụng phát lại kinh nghiệm vì lý do này.