Tôi đã nghiên cứu các vấn đề học tập củng cố chữ tượng hình, và trong khi rất nhiều bài viết đề xuất các thuật toán để học một chính sách, tất cả chúng dường như cho rằng chúng biết trước một cấu trúc biểu đồ mô tả thứ bậc của các hành động trong miền. Ví dụ: Phương pháp MAXQ cho việc học tăng cường phân cấp của Dietterich mô tả một biểu đồ hành động và nhiệm vụ phụ cho một miền Taxi đơn giản, nhưng không phải là cách phát hiện biểu đồ này. Làm thế nào bạn sẽ tìm hiểu hệ thống phân cấp của biểu đồ này, và không chỉ chính sách?
Nói cách khác, sử dụng ví dụ của bài báo, nếu Taxi lái xe xung quanh một cách vô mục đích, với ít kiến thức về thế giới và chỉ có các hành động di chuyển trái-phải / di chuyển phải / v.v. đi đón khách? Nếu tôi hiểu chính xác bài báo (và tôi có thể không), nó đề xuất cách cập nhật chính sách cho các hành động cấp cao này, nhưng không phải là cách chúng được hình thành để bắt đầu.