Tìm hiểu cấu trúc của một nhiệm vụ củng cố phân cấp

Tôi đã nghiên cứu các vấn đề học tập củng cố chữ tượng hình, và trong khi rất nhiều bài viết đề xuất các thuật toán để học một chính sách, tất cả chúng dường như cho rằng chúng biết trước một cấu trúc biểu đồ mô tả thứ bậc của các hành động trong miền. Ví dụ: Phương pháp MAXQ cho việc học tăng cường phân cấp của Dietterich mô tả một biểu đồ hành động và nhiệm vụ phụ cho một miền Taxi đơn giản, nhưng không phải là cách phát hiện biểu đồ này. Làm thế nào bạn sẽ tìm hiểu hệ thống phân cấp của biểu đồ này, và không chỉ chính sách?

Nói cách khác, sử dụng ví dụ của bài báo, nếu Taxi lái xe xung quanh một cách vô mục đích, với ít kiến thức về thế giới và chỉ có các hành động di chuyển trái-phải / di chuyển phải / v.v. đi đón khách? Nếu tôi hiểu chính xác bài báo (và tôi có thể không), nó đề xuất cách cập nhật chính sách cho các hành động cấp cao này, nhưng không phải là cách chúng được hình thành để bắt đầu.

machine-learning

— Ngũ cốc
nguồn

Theo bài báo này

Trong trạng thái hiện đại, người thiết kế hệ thống RL thường sử dụng kiến thức trước về nhiệm vụ để thêm một tập hợp tùy chọn cụ thể vào tập hợp các hành động nguyên thủy có sẵn cho tác nhân.

Cũng xem phần 6.2 Phân cấp nhiệm vụ học tập trong cùng một bài viết.

Ý tưởng đầu tiên xuất hiện trong đầu tôi là nếu bạn không biết phân cấp nhiệm vụ, bạn nên bắt đầu với việc học tăng cường phi ngôn ngữ và cố gắng khám phá cấu trúc sau đó hoặc trong khi học, tức là bạn đang cố gắng khái quát mô hình của mình. Đối với tôi nhiệm vụ này trông tương tự như kỹ thuật hợp nhất mô hình Bayes cho HMM (ví dụ xem luận án này )

— Alexey Kalmykov
nguồn