- RL có đúng khung theo các ràng buộc như vậy không?
Có vẻ như có thể , nhưng có thể một số chi tiết nhỏ mà bạn chưa đưa ra sẽ làm cho các phương pháp khác khả thi hơn. Ví dụ, nếu các sự kiện thông báo có thể được coi là độc lập nhiều hơn hoặc ít hơn, thì phương pháp học tập có giám sát có thể tốt hơn hoặc ít nhất là thực dụng hơn.
Thực tế hơn, nó không rõ ràng 100% trạng thái, dấu thời gian và lựa chọn hành động của bạn sẽ là gì. Chúng cần được xác định rõ để các phương pháp RL hoạt động. Ngoài ra, bạn muốn có thể xây dựng các trạng thái có (hoặc gần như có) tài sản Markov - về cơ bản là bất cứ điều gì được biết và không ngẫu nhiên về phần thưởng dự kiến và trạng thái tiếp theo đều được nhà nước bảo vệ.
- Làm thế nào chúng ta có thể tìm hiểu chính sách tối ưu ngoại tuyến trong các tình huống như vậy
Bạn muốn cả ngoại tuyến (dữ liệu là lịch sử, không phải "trực tiếp") và ngoài chính sách (dữ liệu được tạo bởi một chính sách khác với người bạn muốn đánh giá) người học. Ngoài ra, tôi đoán rằng bạn không biết các chính sách hành vi đã tạo dữ liệu của mình, vì vậy bạn không thể sử dụng lấy mẫu quan trọng .
λ
Điều này không được đảm bảo để hoạt động, vì việc học ngoài chính sách có xu hướng kém ổn định hơn so với chính sách và có thể yêu cầu một số nỗ lực để có được các tham số siêu sẽ hoạt động. Bạn sẽ cần một số lượng mẫu tốt bao gồm các lựa chọn tối ưu hoặc gần tối ưu trên mỗi bước (không nhất thiết phải trong cùng một tập), vì Q-learning dựa vào bootstrapping - về cơ bản sao chép ước tính giá trị từ các lựa chọn hành động ngược về thời gian trước đó để ảnh hưởng mà trước đó nói rằng các đặc vụ thích hành động để hướng tới.
Nếu không gian trạng thái / hành động của bạn đủ nhỏ (khi bạn liệt kê đầy đủ các trạng thái và hành động), bạn có thể thích sử dụng dạng bảng của Q-learning vì điều đó có một số đảm bảo về sự hội tụ. Tuy nhiên, đối với hầu hết các vấn đề thực tế, điều này không thực sự có thể, vì vậy bạn sẽ muốn xem xét các tùy chọn để sử dụng các hàm xấp xỉ.
... và làm thế nào để chúng ta đánh giá giống nhau?
Nếu bạn có thể nhận được các giá trị hành động hội tụ trông giống thực tế từ Q-learning (bằng cách kiểm tra), thì chỉ có 2 cách hợp lý để đánh giá hiệu suất:
Bằng cách chạy tác nhân trong một mô phỏng (và có thể tinh chỉnh thêm ở đó) - Tôi không hy vọng điều này là khả thi cho kịch bản của bạn, bởi vì môi trường của bạn bao gồm các quyết định của khách hàng. Tuy nhiên, đây là một bước đệm tốt cho một số tình huống, ví dụ nếu môi trường bị chi phối bởi vật lý thế giới thực cơ bản.
Bằng cách chạy tác nhân thực sự, có thể trên một số tập hợp con của khối lượng công việc và so sánh phần thưởng thực tế với phần thưởng dự đoán trong thời gian đủ để thiết lập sự tự tin thống kê.
Bạn cũng có thể chạy khô tác nhân cùng với một nhà điều hành hiện có và nhận phản hồi về việc các đề xuất cho hành động (và dự đoán về phần thưởng) của nó có thực tế không. Đó sẽ là phản hồi chủ quan và khó đánh giá hiệu suất bằng số khi các hành động có thể hoặc không thể được sử dụng. Tuy nhiên, nó sẽ cung cấp cho bạn một chút QA.