Mục tiêu là thiết kế một thành phần tối ưu hóa chính sách gần nhất có các ràng buộc cụ thể đối với không gian hành động phụ thuộc vào các quy tắc do nhà nước điều khiển, sử dụng một khung như Tensorforce.
Tùy chọn thiết kế được liệt kê trong câu hỏi
Các tùy chọn này được liệt kê ở đây để tham khảo nhanh khi đọc phân tích ban đầu bên dưới.
- Thay đổi không gian hành động ở mỗi bước, tùy thuộc vào Internal_state. Tôi cho rằng điều này là vô nghĩa.
- Không làm gì: để mô hình hiểu rằng việc chọn một hành động không khả dụng không có tác động.
- Do -alest- nothing: tác động tiêu cực một chút đến phần thưởng khi người mẫu chọn một hành động không khả dụng.
- Giúp mô hình: bằng cách kết hợp một số nguyên vào không gian quan sát / trạng thái thông báo cho mô hình biết giá trị Internal_state + dấu đầu dòng 2 hoặc 3
Phân tích ban đầu
Thực sự hợp lý để thay đổi không gian hành động cho mỗi lần di chuyển. Trên thực tế, đó là một đại diện thích hợp cho vấn đề như đã nêu và cách con người bình thường chơi trò chơi và cách máy tính đánh bại con người trong Cờ vua và cờ vây.
Sự vô cảm rõ ràng của ý tưởng này chỉ đơn thuần là một sự giả tạo của tiến trình dọc theo bản đồ dự án Tensorforce và tiến trình cùng với lý thuyết gia cố, cả hai đều trẻ trong bức tranh lớn hơn. Đọc tài liệu và Câu hỏi thường gặp về Tenorforce, có vẻ như khung được thiết kế để cắm vào một công cụ quy tắc để xác định không gian hành động. Đây không phải là một thiếu sót của nguồn mở. Dường như không có bất kỳ bài báo nào cung cấp lý thuyết hoặc đề xuất thuật toán cho quyết định chuỗi Markov có quy tắc.
Tùy chọn không làm gì là tùy chọn phù hợp với các chiến lược hiện có được trình bày trong tài liệu. Cách làm gần như không có gì có lẽ là cách tiếp cận sẽ tạo ra hành vi đáng tin cậy hơn và có lẽ ngay lập tức hơn.
Vấn đề với khái niệm giúp mô hình là nó không phải là một ý tưởng mạnh mẽ hơn là mở rộng mô hình. Trong nguồn mở, điều này sẽ được thực hiện bằng cách mở rộng các lớp đại diện cho mô hình, đòi hỏi một số công việc lý thuyết trước khi mã hóa
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
Việc mở rộng các hệ thống học tập để bao quát trường hợp hạn chế quy tắc là một ý tưởng tuyệt vời cho luận án tiến sĩ và có thể bay trong các phòng thí nghiệm nghiên cứu như một đề xuất dự án với nhiều ứng dụng khả thi. Đừng để tất cả các bước can ngăn nhà nghiên cứu. Về cơ bản, chúng là một danh sách các bước cho bất kỳ luận án tiến sĩ hoặc dự án phòng thí nghiệm AI được tài trợ.
Đối với một giải pháp ngắn hạn, giúp mô hình có thể hoạt động, nhưng nó không phải là một chiến lược hợp lý để tiếp tục các ý tưởng về AI trên con đường học tập củng cố. Là một giải pháp ngắn hạn cho một vấn đề cụ thể, nó có thể hoạt động tốt. Ý tưởng gần như không có gì có thể có nhiều âm thanh hơn, vì nó phù hợp với các bằng chứng hội tụ dẫn đến việc triển khai cụ thể mà Tensorforce có thể sẽ được sử dụng.
Đổi tên nó từ gần như không có gì để hỗ trợ - hội tụ có thể giúp phát triển quan điểm đúng đắn trước khi thử. Bạn có thể thấy rằng bạn phải đạt được sự trợ giúp khi bạn tiếp cận hội tụ để tránh tình trạng quá tải giống như với tốc độ học tập.