Làm thế nào để xác định các trạng thái trong học tập củng cố?

14

Tôi đang nghiên cứu học tập củng cố và các biến thể của nó. Tôi bắt đầu hiểu được cách các thuật toán hoạt động và cách chúng áp dụng cho MDP. Điều tôi không hiểu là quá trình xác định các trạng thái của MDP. Trong hầu hết các ví dụ và hướng dẫn, chúng đại diện cho một cái gì đó đơn giản như hình vuông trong lưới hoặc tương tự.

Đối với các vấn đề phức tạp hơn, như robot học cách đi bộ, v.v., làm thế nào để bạn xác định các trạng thái đó? Bạn có thể sử dụng các thuật toán học tập hoặc phân loại để "học" các trạng thái đó không?

reinforcement-learning

— Andy
nguồn

14

Vấn đề về đại diện nhà nước trong Học tập tăng cường (RL) tương tự như các vấn đề về biểu diễn tính năng, lựa chọn tính năng và kỹ thuật tính năng trong học tập có giám sát hoặc không giám sát.

Văn học dạy những điều cơ bản của RL có xu hướng sử dụng các môi trường rất đơn giản để tất cả các trạng thái có thể được liệt kê. Điều này đơn giản hóa các ước tính giá trị thành trung bình cán cơ bản trong một bảng, dễ hiểu và dễ thực hiện hơn. Các thuật toán học bảng cũng có các đảm bảo lý thuyết hợp lý về sự hội tụ, có nghĩa là nếu bạn có thể đơn giản hóa vấn đề của mình để nó có thể nói, ít hơn vài triệu trạng thái, thì điều này đáng để thử.

Hầu hết các vấn đề kiểm soát thú vị sẽ không phù hợp với số lượng trạng thái đó, ngay cả khi bạn không khuyến khích chúng. Điều này là do " lời nguyền của chiều ". Đối với những vấn đề đó, thông thường bạn sẽ biểu thị trạng thái của mình dưới dạng vectơ của các tính năng khác nhau - ví dụ: đối với robot, các vị trí, góc, vận tốc khác nhau của các bộ phận cơ khí. Như với việc học có giám sát, bạn có thể muốn xử lý chúng để sử dụng với một quy trình học cụ thể. Chẳng hạn, thông thường bạn sẽ muốn tất cả chúng là số và nếu bạn muốn sử dụng mạng thần kinh, bạn cũng nên chuẩn hóa chúng thành một phạm vi tiêu chuẩn (ví dụ: -1 đến 1).

Ngoài các mối quan tâm trên áp dụng cho học máy khác, đối với RL, bạn cũng cần quan tâm đến Tài sản Markov - rằng nhà nước cung cấp đủ thông tin, để bạn có thể dự đoán chính xác các phần thưởng tiếp theo dự kiến và các trạng thái tiếp theo được đưa ra, mà không cần bất kỳ thông tin bổ sung. Điều này không cần phải hoàn hảo, những khác biệt nhỏ do ví dụ như sự thay đổi mật độ không khí hoặc nhiệt độ cho robot có bánh xe thường sẽ không có tác động lớn đến điều hướng của nó và có thể bị bỏ qua. Bất kỳ yếu tố nào về cơ bản là ngẫu nhiên cũng có thể bị bỏ qua trong khi tuân theo lý thuyết RL - nó có thể làm cho tác nhân kém tối ưu về tổng thể, nhưng lý thuyết vẫn sẽ hoạt động.

Nếu có các yếu tố không xác định nhất quán ảnh hưởng đến kết quả và có thể được suy luận một cách logic - có thể từ lịch sử trạng thái hoặc hành động - nhưng bạn đã loại trừ chúng khỏi đại diện trạng thái, thì bạn có thể gặp vấn đề nghiêm trọng hơn và tác nhân có thể không học .

Điều đáng chú ý là sự khác biệt ở đây giữa quan sát và trạng thái . Một quan sát là một số dữ liệu mà bạn có thể thu thập. Ví dụ, bạn có thể có các cảm biến trên robot của bạn phản hồi lại các vị trí khớp của nó. Bởi vì nhà nước nên sở hữu Tài sản Markov, một quan sát thô có thể không đủ dữ liệu để tạo trạng thái phù hợp. Nếu đó là trường hợp, bạn có thể áp dụng kiến thức miền của mình để xây dựng trạng thái tốt hơn từ dữ liệu có sẵn hoặc bạn có thể thử sử dụng các kỹ thuật được thiết kế cho MDPs (POMDPs) có thể quan sát được một phần - những cách này cố gắng xây dựng các phần dữ liệu trạng thái bị thiếu thống kê. Bạn có thể sử dụng mô hình RNN hoặc mô hình markov ẩn (còn được gọi là "trạng thái niềm tin") cho điều này và theo một cách nào đó, điều này đang sử dụng "học hoặc phân loại thuật toán để "học" những trạng thái đó "như bạn đã hỏi.

Cuối cùng, bạn cần xem xét loại mô hình gần đúng mà bạn muốn sử dụng. Một cách tiếp cận tương tự được áp dụng ở đây như đối với việc học có giám sát:

Hồi quy tuyến tính đơn giản với các tính năng được thiết kế dựa trên kiến thức miền có thể làm rất tốt. Bạn có thể cần phải làm việc chăm chỉ để thử các biểu diễn trạng thái khác nhau để phép tính gần đúng tuyến tính hoạt động. Ưu điểm là cách tiếp cận đơn giản này mạnh mẽ hơn đối với các vấn đề ổn định so với xấp xỉ phi tuyến tính
Một hàm xấp xỉ hàm phi tuyến phức tạp hơn, chẳng hạn như mạng nơ ron nhiều lớp. Bạn có thể cung cấp một vectơ trạng thái "thô" hơn và hy vọng rằng các lớp ẩn sẽ tìm thấy một số cấu trúc hoặc biểu diễn dẫn đến ước tính tốt. Theo một số cách, đây cũng là " thuật toán học hoặc phân loại để" học "các trạng thái đó ", nhưng theo một cách khác với RNN hoặc HMM. Đây có thể là một cách tiếp cận hợp lý nếu trạng thái của bạn được thể hiện tự nhiên dưới dạng hình ảnh màn hình - việc tìm ra kỹ thuật tính năng cho dữ liệu hình ảnh bằng tay là rất khó.

Công trình Atari DQN của nhóm DeepMind đã sử dụng kết hợp kỹ thuật tính năng và dựa vào mạng lưới thần kinh sâu để đạt được kết quả của nó. Kỹ thuật tính năng bao gồm lấy mẫu xuống hình ảnh, giảm nó xuống thang màu xám và - quan trọng đối với Thuộc tính Markov - sử dụng bốn khung liên tiếp để biểu thị một trạng thái duy nhất, để thông tin về vận tốc của các vật thể có trong biểu diễn trạng thái. Sau đó, DNN đã xử lý hình ảnh thành các tính năng cấp cao hơn có thể được sử dụng để đưa ra dự đoán về các giá trị trạng thái.

— Neil Slater
nguồn

3

Một cách tiếp cận phổ biến ban đầu để mô hình hóa các vấn đề phức tạp là sự rời rạc . Ở cấp độ cơ bản, điều này đang phân chia một không gian phức tạp và liên tục thành một lưới. Sau đó, bạn có thể sử dụng bất kỳ kỹ thuật RL cổ điển nào được thiết kế cho các không gian rời rạc, tuyến tính. Tuy nhiên, như bạn có thể tưởng tượng, nếu bạn không cẩn thận, điều này có thể gây ra nhiều rắc rối!

Cuốn sách kinh điển của Sutton & Barto Củng cố có một số gợi ý cho những cách khác để thực hiện điều này. Một là mã hóa gạch , được trình bày trong phần 9.5.4 của phiên bản thứ hai mới . Trong mã hóa gạch, chúng tôi tạo ra một số lượng lớn các lưới, mỗi lưới có khoảng cách lưới khác nhau. Chúng tôi sau đó chồng các lưới lên nhau. Điều này tạo ra các vùng riêng biệt có hình dạng không đồng nhất và có thể hoạt động tốt cho nhiều vấn đề khác nhau.

Mục 9.5 cũng bao gồm nhiều cách khác nhau để mã hóa một không gian liên tục thành MDP riêng biệt, bao gồm các hàm cơ sở xuyên tâm và mã hóa thô. Kiểm tra nó ra!

— John Doucette
nguồn