Học tăng cường trong môi trường không cố định

Câu 1: Có các phương pháp phổ biến hoặc được chấp nhận để xử lý môi trường không cố định trong học tập Củng cố nói chung không?

Q2: Trong thế giới lưới của tôi, tôi có chức năng phần thưởng thay đổi khi một trạng thái được truy cập. Mỗi tập phần thưởng đặt lại về trạng thái ban đầu. Tất cả những gì tôi muốn đại lý của mình học là "Đừng quay lại trừ khi bạn thực sự cần", tuy nhiên điều này làm cho môi trường không ổn định. Có thể / Có nên kết hợp quy tắc rất đơn giản này trong mô hình MDP không và bằng cách nào? Q-learning có phải là giải pháp tốt nhất để giải quyết vấn đề này không? Bất kỳ đề xuất hoặc ví dụ có sẵn?

Câu 3: Tôi đã xem xét Q-learning với kinh nghiệm phát lại như một giải pháp để đối phó với các môi trường không cố định, vì nó giải mã các bản cập nhật liên tiếp. Đây có phải là cách sử dụng đúng của phương pháp hay nó là nhiều hơn để đối phó với việc làm cho việc học hiệu quả hơn? Và tôi chỉ thấy nó được sử dụng với giá trị gần đúng. Tôi không chắc chắn nếu nó là quá mức cần thiết để sử dụng nó cho một không gian trạng thái rời rạc đơn giản, như thế giới lưới, hoặc có một lý do khác cho việc này.

Xin vui lòng trả lời hoặc nhận xét ngay cả khi bạn không thể giải quyết tất cả các câu hỏi.

— Voltronika
nguồn

Câu 1: Có các phương pháp phổ biến hoặc được chấp nhận để xử lý môi trường không cố định trong học tập Củng cố nói chung không?

Hầu hết các tác nhân RL cơ bản là trực tuyến, và học trực tuyến thường có thể giải quyết các vấn đề không cố định. Ngoài ra, các quy tắc cập nhật cho các ước tính giá trị trạng thái và giá trị hành động trong các vấn đề kiểm soát thường được viết cho các mục tiêu không cố định, bởi vì các mục tiêu đã thay đổi khi chính sách được cải thiện. Điều này không có gì phức tạp, chỉ đơn giản là sử dụng tỷ lệ học tập trong các bản cập nhật khi ước tính giá trị, thực sự có ý nghĩa hình học trái ngược với trung bình trên tất cả lịch sử theo kiểu không trọng số. $\alpha$

Tuy nhiên , điều này giải quyết vấn đề không cố định lâu dài hơn, chẳng hạn như vấn đề thay đổi giữa các tập hoặc theo thang thời gian thậm chí dài hơn. Mô tả của bạn trông giống như bạn muốn thay đổi cấu trúc phần thưởng dựa trên các hành động mà đại lý đã thực hiện, trong một khoảng thời gian ngắn. Phản ứng động đối với các hành động được đóng khung tốt hơn như là một MDP phức tạp khác, không phải là "không cố định" trong MDP đơn giản hơn.

Một tác nhân không thể tìm hiểu các thay đổi đối với môi trường mà nó chưa được lấy mẫu, do đó, việc thay đổi cấu trúc phần thưởng sẽ không ngăn tác nhân quay trở lại trạng thái đã truy cập trước đó. Trừ khi bạn đang sử dụng một cái gì đó giống như RNN trong tác nhân, tác nhân sẽ không có "bộ nhớ" về những gì đã xảy ra trước đó trong tập phim, ngoại trừ bất cứ điều gì được thể hiện trong trạng thái hiện tại (có thể sử dụng RNN làm cho lớp ẩn của phần RNN của nhà nước). Trên nhiều tập, nếu bạn sử dụng tác nhân Q-learning dạng bảng, thì tác nhân đó sẽ chỉ đơn giản biết rằng một số trạng thái nhất định có giá trị thấp, sẽ không thể biết rằng các lần truy cập thứ hai hoặc thứ ba đến trạng thái đó gây ra hiệu ứng đó, bởi vì nó không có cách để thể hiện kiến thức đó. Nó sẽ không thể điều chỉnh thay đổi đủ nhanh để học trực tuyến và giữa tập.

Q2: Trong thế giới lưới của tôi, tôi có chức năng phần thưởng thay đổi khi một trạng thái được truy cập. Tất cả những gì tôi muốn đại lý của mình học là "Đừng quay lại trừ khi bạn thực sự cần", tuy nhiên điều này làm cho môi trường không ổn định.

Nếu đó là tất cả những gì bạn cần để học hỏi, có lẽ điều này có thể được khuyến khích bởi một cấu trúc phần thưởng phù hợp. Trước khi bạn có thể làm điều đó, bạn cần phải hiểu chính mình "thực sự cần phải" ngụ ý gì và chặt chẽ đến mức nào phải hợp lý. Bạn có thể ổn dù chỉ bằng cách chỉ định một số hình phạt cho việc truy cập bất kỳ vị trí nào mà đại lý đã hoặc gần đây đã truy cập.

Có thể / Có nên kết hợp quy tắc rất đơn giản này trong mô hình MDP không và bằng cách nào?

Có, bạn nên thêm thông tin về các địa điểm được truy cập vào tiểu bang. Điều này ngay lập tức sẽ làm cho mô hình trạng thái của bạn phức tạp hơn một thế giới lưới đơn giản, làm tăng tính chiều của vấn đề, nhưng điều đó là không thể tránh khỏi. Hầu hết các vấn đề trong thế giới thực rất nhanh vượt xa các ví dụ đồ chơi được cung cấp để dạy các khái niệm RL.

Một cách khác là đóng khung vấn đề dưới dạng Quy trình Quyết định Markov có thể quan sát được một phần (POMDP) . Trong trường hợp đó, trạng thái "thật" vẫn sẽ bao gồm tất cả lịch sử cần thiết để tính toán phần thưởng (và vì đây là sự cố đồ chơi trên máy tính mà bạn vẫn phải trình bày bằng cách nào đó), nhưng tác nhân có thể cố gắng học hỏi từ bị hạn chế kiến thức về nhà nước, chỉ cần bất cứ điều gì bạn để nó quan sát. Nói chung, đây là một cách tiếp cận khó hơn nhiều so với việc mở rộng đại diện nhà nước và tôi không khuyến nghị ở đây. Tuy nhiên, nếu bạn thấy ý tưởng này thú vị, bạn có thể sử dụng vấn đề của mình để khám phá POMDP. Đây là một bài báo gần đây (từ nhóm Deep Mind của Google, 2015) xem xét hai thuật toán RL kết hợp với RNN để giải quyết POMDP.

Câu 3: Tôi đã xem xét Q-learning với kinh nghiệm phát lại như một giải pháp để đối phó với các môi trường không cố định, vì nó giải mã các bản cập nhật liên tiếp. Đây có phải là cách sử dụng đúng của phương pháp hay nó là nhiều hơn để đối phó với việc làm cho việc học hiệu quả hơn?

Kinh nghiệm phát lại sẽ không giúp đỡ với môi trường không cố định. Trong thực tế, nó có thể làm cho hiệu suất tồi tệ hơn trong họ. Tuy nhiên, như đã nêu, vấn đề của bạn không thực sự là về một môi trường không cố định, mà là về việc xử lý các động thái trạng thái phức tạp hơn.

Những gì bạn có thể cần làm là xem xét gần đúng chức năng, nếu số lượng trạng thái tăng lên một số lượng đủ lớn. Ví dụ: nếu bạn muốn xử lý bất kỳ theo dõi ngược nào và có quy tắc sửa đổi phần thưởng phức tạp theo dõi từng vị trí được truy cập, thì trạng thái của bạn có thể thay đổi từ một số vị trí thành bản đồ hiển thị các vị trí đã truy cập. Vì vậy, ví dụ, nó có thể đi từ tiểu bang cho thế giới lưới đến bản đồ trạng thái hiển thị các ô vuông đã truy cập. Điều này là quá cao để theo dõi trong một bảng giá trị, vì vậy bạn thường sẽ sử dụng mạng thần kinh (hoặc mạng thần kinh tích chập) để ước tính các giá trị trạng thái thay thế. $64$ $8 \times 8$ $2^{64}$

Với một công cụ ước tính chức năng, phát lại kinh nghiệm là rất hữu ích, vì nếu không có nó, quá trình học tập có thể không ổn định. Cách tiếp cận DQN gần đây để chơi các trò chơi Atari sử dụng phát lại kinh nghiệm vì lý do này.

— Neil Slater
nguồn

Nếu môi trường không cố định thì làm thế nào để bạn đối phó với thực tế rằng, trong ví dụ về thế giới lưới, ở trạng thái tại thời điểm t = 1 không giống như ở trạng thái đó tại t = 2? Nếu bạn coi chúng là những trạng thái riêng biệt thì chắc chắn chiều không gian trạng thái của bạn sẽ bùng nổ?

— gắng học hỏi

@tryingtolearn: Toàn bộ quan điểm của một trạng thái Markov là nó nắm bắt tất cả các chi tiết quan trọng về cách MDP sẽ tiến triển từ thời điểm đó. Thông thường ở trạng thái tại t = 1 không khác với ở trạng thái tương tự tại t = 2, về phần thưởng dự kiến trong tương lai và chuyển trạng thái. Nếu bạn kết thúc với các quy tắc dựa trên giá trị của t, thì bạn đặt t vào trạng thái. Điều này có thể xảy ra nếu bạn có thể nhận phần thưởng bất cứ lúc nào, nhưng số bước thời gian bị giới hạn - ví dụ tập luôn kết thúc ở t = 10. Trong trường hợp đó, việc biết thời gian còn lại của bạn có thể rất quan trọng

— Neil Slater

@NeilSlater bạn có thể mở rộng các ý tưởng POMDP và RNN trong câu trả lời của bạn không? Họ có vẻ thú vị. Và nếu có thể, hãy cung cấp các nguồn liên quan vì đôi khi rất khó điều hướng các tài liệu. Tôi thực sự không thích ý tưởng giữ chuỗi các trạng thái được truy cập, mặc dù đây là điều duy nhất tôi có thể nghĩ đến cho đến nay, vì vậy tôi đang tìm kiếm các lựa chọn khác. Mô hình trở nên quá phức tạp theo cách đó, do tôi cần phải đưa ra một quy tắc rất đơn giản. Tôi không chắc chắn nếu tôi thiếu một cái gì đó rất rõ ràng hoặc tôi chỉ không sử dụng đúng mô hình và công thức.

— Voltronika

@NeilSlater Điều này không thể được giúp đỡ bằng cách sử dụng những thứ như phương pháp gradient chính sách? Trong thực tế, bạn có tình cờ biết tiêu chuẩn để giải quyết các loại vấn đề này là gì không?

— gắng học hỏi

@Voltronika Tôi đã mở rộng câu trả lời thêm một đoạn về POMDPs. Lưu ý rằng việc đóng khung vấn đề của bạn dưới dạng POMDP khiến việc giải quyết và giải quyết khó khăn hơn nhiều so với việc mở rộng trạng thái để bao gồm bộ nhớ phù hợp của các vị trí đã truy cập. Vì vậy, tôi khuyên bạn chỉ nên xem xét điều đó nếu nghiên cứu POMDP là mục tiêu.

— Neil Slater

Q1: Q learning là một thuật toán học tăng cường trực tuyến hoạt động tốt với môi trường đứng yên. Nó cũng có thể được sử dụng với một mô hình không cố định với điều kiện mô hình (chức năng phần thưởng và xác suất chuyển tiếp) không thay đổi nhanh.

— Khalid Ibrahim
nguồn