Sự khác biệt giữa học tập củng cố dựa trên mô hình và mô hình là gì?


28

Sự khác biệt giữa học tập củng cố dựa trên mô hình và mô hình là gì?

Dường như với tôi, bất kỳ người học không có mô hình nào, học qua thử và sai, đều có thể được quy định là dựa trên mô hình. Trong trường hợp đó, khi nào người học không có mô hình sẽ thích hợp?


Xem thêm câu trả lời này: qr.ae/TUtHbv .
nbro

Làm thế nào để bạn có nghĩa là bạn có thể điều chỉnh lại một người học không có mô hình như là một mô hình dựa trên?
HelloGoodbye

Đây là một phiên bản chưa hoàn chỉnh của liên kết của nbro: Sự khác biệt giữa học tập củng cố dựa trên mô hình và không có mô hình là gì? (Quora)
jrh

Câu trả lời:


14

Học tập củng cố dựa trên mô hình có một tác nhân cố gắng hiểu thế giới và tạo ra một mô hình để đại diện cho nó. Đây là mô hình đang cố gắng để nắm bắt 2 chức năng, chức năng chuyển đổi từ trạng thái và chức năng thưởng R . Từ mô hình này, các đại lý có một tài liệu tham khảo và có thể lập kế hoạch phù hợp.TR

Tuy nhiên, không nhất thiết phải học một mô hình và thay vào đó, tác nhân có thể học một chính sách trực tiếp bằng các thuật toán như Q-learning hoặc gradient chính sách.

Một kiểm tra đơn giản để xem liệu thuật toán RL dựa trên mô hình hay không có mô hình là:

Nếu, sau khi tìm hiểu, tác nhân có thể đưa ra dự đoán về trạng thái và phần thưởng tiếp theo sẽ là gì trước khi thực hiện mỗi hành động, đó là thuật toán RL dựa trên mô hình.

Nếu không thể, thì đó là một thuật toán không có mô hình.


2
theo cách nói của bạn, "không cần thiết phải học một mô hình", và câu hỏi của tôi là: tại sao mọi người sẽ thực hiện một cách tiếp cận dựa trên mô hình?
vin

4
Một ví dụ lớn tôi có thể nghĩ đến là khi bạn muốn một tác nhân tìm hiểu về môi trường xung quanh mà không thực sự tối ưu hóa bất cứ điều gì. Đây là một phần của vấn đề học tập liên tục, bạn cần xây dựng một mô hình nội bộ như "Tôi va vào tường khi cảm biến khoảng cách của tôi đọc một bức tường gần" thì tác nhân đó có thể khái quát thông tin đó cho nhiều nhiệm vụ nếu chúng phát sinh.
Jaden Tra Mand

2
cảm ơn @Jaden Tra Mand. tôi hiểu tại sao sẽ hữu ích khi học cách thể hiện môi trường ("tôi va vào tường khi khoảng cách của tôi đọc một bức tường gần") mà không giải quyết một số nhiệm vụ (ví dụ: điều hướng đến nhà bếp). nhưng tại sao điều này sẽ được coi là RL không có mô hình , và không phải là một nhiệm vụ học tập có giám sát vanilla?
vin

2
Điều này sẽ không được giám sát việc học vì không có bất kỳ dữ liệu được dán nhãn nào. Tác nhân sẽ không biết ý nghĩa của tín hiệu là gì nên không thể nói cảm biến khoảng cách từ nhiệt kế. Những gì tác nhân đang học là dự đoán các tín hiệu dựa trên các tín hiệu khác, bản thân nó là một mô hình của thế giới của nó.
Jaden Tra Mand

2
với cách tiếp cận dựa trên mô hình, tác nhân học cách dự đoán trạng thái tiếp theo, theo lời giải thích ban đầu của bạn. nó làm như vậy bằng cách học <x, y>, trong đó x là (s1, hành động) và y là (s2, phần thưởng). xin lỗi nếu tôi hiểu sai, nhưng không phải là giám sát việc học?
vin

12

Sự khác biệt giữa học tập củng cố dựa trên mô hình và mô hình là gì?

Trong Học tăng cường, các thuật ngữ "dựa trên mô hình" và "không có mô hình" không đề cập đến việc sử dụng mạng thần kinh hoặc mô hình học thống kê khác để dự đoán các giá trị hoặc thậm chí để dự đoán trạng thái tiếp theo (mặc dù sau này có thể được sử dụng như một phần của thuật toán dựa trên mô hình và được gọi là "mô hình" bất kể thuật toán đó dựa trên mô hình hay không có mô hình).

Thay vào đó, thuật ngữ này đề cập nghiêm túc đến việc, trong khi học hoặc hành động, tác nhân sử dụng các dự đoán về phản ứng môi trường. Tác nhân có thể sử dụng một dự đoán duy nhất từ ​​mô hình phần thưởng tiếp theo và trạng thái tiếp theo (mẫu) hoặc có thể yêu cầu mô hình cho phần thưởng tiếp theo dự kiến hoặc phân phối đầy đủ các trạng thái tiếp theo và phần thưởng tiếp theo. Những dự đoán này có thể được cung cấp hoàn toàn bên ngoài tác nhân học tập - ví dụ: bằng mã máy tính hiểu các quy tắc của trò chơi súc sắc hoặc trò chơi trên bàn cờ. Hoặc họ có thể được học bởi các đại lý, trong trường hợp đó họ sẽ gần đúng.

Chỉ vì có một mô hình môi trường được triển khai, không có nghĩa là một tác nhân RL là "dựa trên mô hình". Để đủ điều kiện là "dựa trên mô hình", các thuật toán học tập phải tham chiếu rõ ràng mô hình:

  • Các thuật toán hoàn toàn lấy mẫu từ kinh nghiệm như Monte Carlo Control, SARSA, Q-learning, Actor-Critic là các thuật toán RL "không có mô hình". Họ dựa vào các mẫu thực từ môi trường và không bao giờ sử dụng các dự đoán được tạo ra về trạng thái tiếp theo và phần thưởng tiếp theo để thay đổi hành vi (mặc dù họ có thể lấy mẫu từ bộ nhớ kinh nghiệm, gần giống như một mô hình).

  • Các thuật toán dựa trên mô hình nguyên mẫu là Lập trình động (Lặp lại chính sách và Lặp lại giá trị) - tất cả đều sử dụng các dự đoán hoặc phân phối của mô hình về trạng thái tiếp theo và phần thưởng để tính toán các hành động tối ưu. Cụ thể trong Lập trình động, mô hình phải cung cấp xác suất chuyển trạng thái và phần thưởng dự kiến ​​từ bất kỳ trạng thái, cặp hành động nào. Lưu ý điều này hiếm khi là một mô hình học.

  • Học TD cơ bản, chỉ sử dụng các giá trị trạng thái, cũng phải dựa trên mô hình để hoạt động như một hệ thống điều khiển và chọn hành động. Để chọn hành động tốt nhất, nó cần truy vấn một mô hình dự đoán điều gì sẽ xảy ra trên mỗi hành động và thực hiện chính sách như π(S)= =argmaxmộtΣS',rp(S',r|S,một)(r+v(S')) nơi p(S',r|S,một) là xác suất nhận được phần thưởngr và trạng thái tiếp theoS' khi thực hiện hành độngmột ở trạng tháiS . Đó là chức năngp(S',r|S,một) bản chất là mô hình.

Tài liệu RL phân biệt giữa "mô hình" như một mô hình môi trường cho việc học "dựa trên mô hình" và "không có mô hình" và sử dụng người học thống kê, như mạng lưới thần kinh.

Trong RL, các mạng thần kinh thường được sử dụng để tìm hiểu và tổng quát hóa các hàm giá trị, chẳng hạn như giá trị Q dự đoán tổng lợi nhuận (tổng phần thưởng giảm giá) được cung cấp cho một cặp trạng thái và hành động. Một mạng lưới thần kinh được đào tạo như vậy thường được gọi là "mô hình", ví dụ như học có giám sát. Tuy nhiên, trong tài liệu RL, bạn sẽ thấy thuật ngữ "hàm xấp xỉ hàm" được sử dụng cho một mạng như vậy để tránh sự mơ hồ.

Dường như với tôi, bất kỳ người học không có mô hình nào, học qua thử và sai, đều có thể được quy định là dựa trên mô hình.

Tôi nghĩ ở đây bạn đang sử dụng cách hiểu chung về từ "mô hình" để bao gồm bất kỳ cấu trúc nào đưa ra dự đoán hữu ích. Điều đó sẽ áp dụng cho ví dụ bảng các giá trị Q trong SARSA.

Tuy nhiên, như đã giải thích ở trên, đó không phải là cách thuật ngữ được sử dụng trong RL. Vì vậy, mặc dù bạn hiểu rằng RL xây dựng các biểu diễn bên trong hữu ích là chính xác, nhưng bạn không đúng về mặt kỹ thuật rằng điều này có thể được sử dụng để tái lập khung giữa "không có mô hình" thành "dựa trên mô hình", bởi vì các thuật ngữ đó có ý nghĩa rất cụ thể trong RL .

Trong trường hợp đó, khi nào người học không có mô hình sẽ thích hợp?

Nói chung với tình trạng nghệ thuật hiện tại trong RL, nếu bạn không có một mô hình chính xác được cung cấp như một phần của định nghĩa vấn đề, thì các cách tiếp cận không có mô hình thường vượt trội.

Có rất nhiều mối quan tâm đến các tác nhân xây dựng các mô hình dự đoán về môi trường và thực hiện như một "tác dụng phụ" (trong khi vẫn là một thuật toán không có mô hình) vẫn có thể hữu ích - nó có thể thường xuyên hóa một mạng lưới thần kinh hoặc giúp khám phá dự đoán chính các tính năng cũng có thể được sử dụng trong các mạng chính sách hoặc giá trị. Tuy nhiên, các tác nhân dựa trên mô hình học các mô hình của riêng họ để lập kế hoạch có một vấn đề là sự không chính xác trong các mô hình này có thể gây ra sự không ổn định (sự không chính xác sẽ nhân lên trong tương lai của tác nhân). Một số đường vào đầy hứa hẹn đang được thực hiện bằng cách sử dụng các tác nhân và / hoặc cơ chế dựa trên trí tưởng tượng để quyết định thời điểm và mức độ tin tưởng của mô hình đã học trong quá trình lập kế hoạch.

Ngay bây giờ (năm 2018), nếu bạn gặp vấn đề trong thế giới thực trong môi trường không có mô hình rõ ràng khi bắt đầu, thì cách an toàn nhất là sử dụng phương pháp không có mô hình như DQN hoặc A3C. Điều đó có thể thay đổi khi lĩnh vực này đang di chuyển nhanh và các kiến ​​trúc mới phức tạp hơn cũng có thể là chuẩn mực trong một vài năm.


1
Một sự điều chỉnh nhỏ, thông thường các thuật ngữ "dựa trên mô hình" hoặc "không có mô hình" không được sử dụng cho các thuật toán lập kế hoạch như MCTS. Nó chỉ được sử dụng để phân loại các thuật toán học tập.
Miguel Saraiva

@MiguelSaraiva: Tôi không chắc chắn 100% về điều đó, nhưng đã xóa tham chiếu đến MCTS. Không quan tâm, bạn sẽ đặt DynaQ ở đâu về giới hạn này của việc sử dụng các điều khoản? Tôi nghĩ rằng nó trở nên khó khăn, khi tất cả các thuật toán chia sẻ một quan điểm chung như vậy về mô hình MDP và các chính sách cải tiến, để cho biết nơi giới hạn giữa kế hoạch và học tập.
Neil Slater

Tôi có thể sai, tôi là người mới trong khu vực. Tôi chỉ nhớ một giáo viên từ trường đưa ra nhận xét đó sau khi tôi đã nhận xét tương tự.
Miguel Saraiva

5

mộtSS'r

Mục tiêu chính của đại lý là thu thập số tiền thưởng lớn nhất "về lâu dài". Để làm điều đó, tác nhân cần tìm một chính sách tối ưu (đại khái là chiến lược tối ưu để hành xử trong môi trường). Nói chung, chính sách là một chức năng, với trạng thái hiện tại của môi trường, đưa ra một hành động (hoặc phân phối xác suất cho các hành động, nếu chính sách đó là ngẫu nhiên ) để thực thi trong môi trường. Do đó, một chính sách có thể được coi là "chiến lược" được sử dụng bởi tác nhân để hành xử trong môi trường này. Một chính sách tối ưu (đối với một môi trường nhất định) là một chính sách, nếu được tuân theo, sẽ khiến cho đại lý thu được số tiền thưởng lớn nhất trong thời gian dài (là mục tiêu của đại lý). Do đó, trong RL, chúng tôi quan tâm đến việc tìm kiếm các chính sách tối ưu.

Môi trường có thể là xác định (nghĩa là, đại khái, cùng một hành động trong cùng một trạng thái dẫn đến cùng một trạng thái tiếp theo, cho tất cả các bước thời gian) hoặc ngẫu nhiên (hoặc không xác định), nghĩa là, nếu tác nhân thực hiện một hành động trong một trạng thái nhất định, trạng thái tiếp theo của môi trường có thể không nhất thiết phải luôn giống nhau: có một xác suất rằng nó sẽ là trạng thái nhất định hoặc trạng thái khác. Tất nhiên, những điều không chắc chắn này sẽ khiến nhiệm vụ tìm kiếm chính sách tối ưu trở nên khó khăn hơn.

Trong RL, vấn đề thường được đưa ra dưới dạng toán học như là một quá trình quyết định Markov (MDP). MDP là một cách thể hiện "động lực" của môi trường, nghĩa là cách môi trường sẽ phản ứng với các hành động có thể mà tác nhân có thể thực hiện, ở một trạng thái nhất định. Chính xác hơn, MDP được trang bị chức năng chuyển đổi (hoặc "mô hình chuyển đổi"), là chức năng, với trạng thái hiện tại của môi trường và một hành động (mà tác nhân có thể thực hiện), đưa ra xác suất di chuyển đến bất kỳ của các tiểu bang tiếp theo. Hàm thưởngcũng được liên kết với MDP. Theo trực giác, hàm phần thưởng tạo ra phần thưởng, với trạng thái hiện tại của môi trường (và, có thể, một hành động được thực hiện bởi tác nhân và trạng thái tiếp theo của môi trường). Nói chung, các chức năng chuyển tiếp và khen thưởng thường được gọi là mô hình môi trường. Để kết luận, MDP là vấn đề và giải pháp cho vấn đề là một chính sách. Hơn nữa, "động lực" của môi trường bị chi phối bởi các chức năng chuyển tiếp và phần thưởng (nghĩa là "mô hình").

Tuy nhiên, chúng tôi thường không có MDP, nghĩa là chúng tôi không có chức năng chuyển tiếp và khen thưởng (của MDP liên quan đến môi trường). Do đó, chúng tôi không thể ước tính một chính sách từ MDP, vì nó chưa được biết. Lưu ý rằng, nói chung, nếu chúng ta có các chức năng chuyển tiếp và khen thưởng của MDP liên quan đến môi trường, chúng ta có thể khai thác chúng và truy xuất một chính sách tối ưu (sử dụng thuật toán lập trình động).

Trong trường hợp không có các chức năng này (nghĩa là khi MDP không xác định), để ước tính chính sách tối ưu, tác nhân cần phải tương tác với môi trường và quan sát các phản ứng của môi trường. Điều này thường được gọi là "vấn đề học tập củng cố", bởi vì tác nhân sẽ cần ước tính một chính sách bằng cách củng cố niềm tin của mình về sự năng động của môi trường. Theo thời gian, tác nhân bắt đầu hiểu cách môi trường phản ứng với các hành động của nó và do đó nó có thể bắt đầu ước tính chính sách tối ưu. Do đó, trong bài toán RL, tác nhân ước tính chính sách tối ưu để hành xử trong môi trường không xác định (hoặc được biết một phần) bằng cách tương tác với nó (sử dụng phương pháp "thử và sai").

Trong bối cảnh này, một mô hình dựa trênthuật toán là một thuật toán sử dụng hàm chuyển đổi (và hàm phần thưởng) để ước tính chính sách tối ưu. Tác nhân có thể chỉ có quyền truy cập gần đúng chức năng chuyển tiếp và chức năng phần thưởng, có thể được học bởi tác nhân trong khi nó tương tác với môi trường hoặc có thể được trao cho tác nhân (ví dụ: bởi một tác nhân khác). Nói chung, trong thuật toán dựa trên mô hình, tác nhân có khả năng dự đoán động lực học của môi trường (trong hoặc sau giai đoạn học tập), bởi vì nó có ước tính về hàm chuyển đổi (và hàm thưởng). Tuy nhiên, lưu ý rằng các hàm chuyển đổi và phần thưởng mà tác nhân sử dụng để cải thiện ước tính của chính sách tối ưu có thể chỉ là xấp xỉ các hàm "thực". Do đó, chính sách tối ưu có thể không bao giờ được tìm thấy (vì những xấp xỉ này).

Một mô hình miễn phí thuật toán là một thuật toán ước lượng chính sách tối ưu mà không sử dụng hoặc ước tính động lực học (chuyển tiếp và thưởng chức năng) của môi trường. Trong thực tế, thuật toán không có mô hình ước tính "hàm giá trị" hoặc "chính sách" trực tiếp từ kinh nghiệm (nghĩa là sự tương tác giữa tác nhân và môi trường), mà không sử dụng chức năng chuyển đổi cũng như chức năng phần thưởng. Hàm giá trị có thể được coi là một hàm đánh giá một trạng thái (hoặc một hành động được thực hiện trong một trạng thái), cho tất cả các trạng thái. Từ hàm giá trị này, một chính sách có thể được dẫn xuất.

Trong thực tế, một cách để phân biệt giữa các thuật toán dựa trên mô hình hoặc không có mô hình là xem xét các thuật toán và xem liệu chúng có sử dụng hàm chuyển đổi hoặc phần thưởng không.

Chẳng hạn, hãy xem quy tắc cập nhật chính trong thuật toán Q-learning :

Q(St,Mộtt)Q(St,Mộtt)+α(Rt+1+γtối đamộtQ(St+1,một)-Q(St,Mộtt))

Rt+1

Bây giờ, hãy xem quy tắc cập nhật chính của thuật toán cải tiến chính sách :

Q(S,một)ΣS'S,rRp(S',r|S,một)(r+γV(S'))

p(S',r|S,một)


2

Mô hình RL miễn phí

Trong RL Model-Free, tác nhân không có quyền truy cập vào mô hình môi trường. Theo môi trường, ý tôi là một chức năng dự đoán sự chuyển đổi trạng thái và phần thưởng.

Tính đến thời điểm viết bài, các phương pháp không có mô hình là phổ biến hơn và đã được nghiên cứu rộng rãi.

RL dựa trên mô hình

Trong RL dựa trên mô hình, tác nhân có quyền truy cập vào một mô hình môi trường.

Ưu điểm chính là điều này cho phép các đại lý lên kế hoạch trước bằng cách suy nghĩ trước. Đại lý chắt lọc kết quả từ việc lên kế hoạch trước thành một chính sách đã học. Một ví dụ nổi tiếng về RL dựa trên mô hình là AlphaZero .

Nhược điểm chính là nhiều lần đại diện cho sự thật về môi trường thường không có sẵn.


Dưới đây là một phân loại không đầy đủ của các thuật toán RL, có thể giúp bạn hình dung rõ hơn cảnh quan RL.

nhập mô tả hình ảnh ở đây


1

Theo OpenAI - Các loại thuật toán RL , các thuật toán sử dụng mô hình môi trường, tức là một hàm dự đoán các chuyển đổi và phần thưởng trạng thái, được gọi là các phương pháp dựa trên mô hình và các thuật toán không được gọi là không có mô hình . Mô hình này có thể đã được đưa ra cho các đại lý hoặc học hỏi bởi các đại lý.

Sử dụng một mô hình cho phép tác nhân lập kế hoạch bằng cách suy nghĩ trước, xem điều gì sẽ xảy ra cho một loạt các lựa chọn có thể và quyết định rõ ràng giữa các lựa chọn của nó. Điều này có thể hữu ích khi phải đối mặt với các vấn đề đòi hỏi suy nghĩ lâu dài hơn. Một cách để thực hiện lập kế hoạch là sử dụng một số loại tìm kiếm cây, ví dụ như tìm kiếm cây Monte Carlo (MCTS), hoặc mà tôi nghi ngờ cũng có thể được sử dụng các biến thể của cây của cây ngẫu nhiên khám phá nhanh (RRT). Xem ví dụ Đại lý tưởng tượng và lập kế hoạch .

Sau đó, tác nhân có thể chắt lọc các kết quả từ việc lập kế hoạch trước thành một chính sách đã học - điều này được gọi là lặp chuyên gia.

Một mô hình cũng có thể được sử dụng để tạo ra một môi trường mô phỏng hoặc "tưởng tượng" trong đó trạng thái được cập nhật bằng cách sử dụng mô hình và làm cho tác nhân tìm hiểu bên trong môi trường đó, như trong Mô hình thế giới .

Trong nhiều kịch bản trong thế giới thực, mô hình thực tế về môi trường không có sẵn cho tác nhân. Nếu một tác nhân muốn sử dụng một mô hình trong trường hợp này, nó phải tìm hiểu mô hình, điều này có thể là thách thức vì nhiều lý do.

Tuy nhiên, có những trường hợp mà tác nhân sử dụng một mô hình đã được biết đến và do đó không phải học mô hình đó, chẳng hạn như trong AlphaZero , trong đó mô hình xuất hiện dưới dạng các quy tắc của trò chơi.


1

Mặc dù có một số câu trả lời hay, tôi muốn thêm đoạn này từ Học tăng cường: Giới thiệu , trang 303, để có cái nhìn tâm lý hơn về sự khác biệt.

Sự khác biệt giữa các thuật toán học tập củng cố dựa trên mô hình và dựa trên mô hình tương ứng với các nhà tâm lý học phân biệt được thực hiện giữa kiểm soát theo thói quen và theo mục tiêu của các mẫu hành vi đã học. Thói quen là các mẫu hành vi được kích hoạt bởi các kích thích thích hợp và sau đó được thực hiện ít nhiều tự động. Hành vi hướng đến mục tiêu, theo cách các nhà tâm lý học sử dụng cụm từ này, có mục đích theo nghĩa là nó được kiểm soát bởi kiến ​​thức về giá trị của mục tiêu và mối quan hệ giữa các hành động và hậu quả của chúng. Thói quen đôi khi được cho là được kiểm soát bởi các kích thích tiền sử, trong khi hành vi hướng đến mục tiêu được cho là được kiểm soát bởi hậu quả của nó (Dickinson, 1980, 1985). Kiểm soát theo mục tiêu có lợi thế là nó có thể thay đổi nhanh chóng hành vi của động vật khi môi trường thay đổi cách phản ứng với hành động của động vật. Mặc dù hành vi theo thói quen phản ứng nhanh với đầu vào từ một môi trường quen thuộc, nhưng nó không thể nhanh chóng điều chỉnh theo các thay đổi trong môi trường.

Nó tiếp tục đi từ đó, và có một ví dụ tốt đẹp sau đó.

Tôi nghĩ rằng điểm chính không phải lúc nào cũng được giải thích trong các câu trả lời khác, là trong cách tiếp cận không có mô hình, bạn vẫn cần một loại môi trường nào đó để cho bạn biết phần thưởng liên quan đến hành động của bạn là gì. Sự khác biệt lớn là bạn KHÔNG cần lưu trữ bất kỳ thông tin nào về mô hình. Bạn cung cấp cho môi trường hành động bạn đã chọn, bạn cập nhật chính sách ước tính của mình và bạn quên nó. Mặt khác, trong các cách tiếp cận dựa trên mô hình, bạn cần biết lịch sử chuyển đổi trạng thái như trong Lập trình động hoặc bạn cần có thể tính toán tất cả các trạng thái tiếp theo có thể và phần thưởng liên quan, từ trạng thái hiện tại.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.