Trí tuệ nhân tạo reinforcement-learning

3

Sự khác biệt giữa diễn viên-phê bình và lợi thế diễn viên-phê bình là gì?

Tôi đang đấu tranh để hiểu sự khác biệt giữa nhà phê bình diễn viên và nhà phê bình diễn viên lợi thế. Ít nhất, tôi biết chúng khác với nhà phê bình diễn viên lợi thế không đồng bộ (A3C), vì A3C bổ sung một cơ chế không đồng …

11 reinforcement-learning terminology actor-critic comparison advantage-actor-critic

3

Là chính sách tối ưu luôn luôn ngẫu nhiên nếu môi trường cũng là ngẫu nhiên?

Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên? Bằng trực giác, nếu môi trường là xác định (có nghĩa là, nếu các đại lý …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

1

Toán tử Bellman trong học tăng cường là gì?

Trong toán học, toán tử từ có thể đề cập đến một số khái niệm riêng biệt nhưng có liên quan. Một toán tử có thể được định nghĩa là một hàm giữa hai không gian vectơ, nó có thể được định nghĩa là một hàm trong đó miền và …

10 reinforcement-learning terminology math

2

Tại sao đường cơ sở có điều kiện về trạng thái tại một số dấu thời gian không thiên vị?

Trong chế tạo robot, kỹ thuật học tăng cường được sử dụng để tìm ra mẫu điều khiển cho robot. Thật không may, hầu hết phương pháp độ dốc chính sách đều sai lệch về mặt thống kê có thể khiến robot gặp tình huống không an toàn, xem trang …

9 reinforcement-learning

1

Một vài nghi ngờ liên quan đến việc áp dụng học tập củng cố cho các trò chơi như cờ vua

Tôi đã phát minh ra một trò chơi cờ giống như cờ vua. Tôi đã chế tạo một động cơ để nó có thể chơi tự động. Động cơ về cơ bản là một cây quyết định. Nó được sáng tác bởi: Một chức năng tìm kiếm mà tại mỗi …

9 reinforcement-learning game-ai game-theory combinatorial-games negamax

3

Có tìm kiếm cây Monte Carlo đủ điều kiện như học máy?

Theo hiểu biết của tôi, thuật toán tìm kiếm cây Monte Carlo (MCTS) là một giải pháp thay thế cho minimax để tìm kiếm một cây nút. Nó hoạt động bằng cách chọn một nước đi (nói chung, một nước có cơ hội cao nhất là tốt nhất), và sau …

9 machine-learning reinforcement-learning game-ai monte-carlo-tree-search alphazero

4

Không có ý nghĩa gì về văn phòng phẩm của người Hồi giáo trong bối cảnh học tập củng cố?

Tôi nghĩ rằng tôi đã thấy các biểu thức "dữ liệu tĩnh", "động lực học cố định" và "chính sách dừng", trong số những thứ khác, trong bối cảnh học tập củng cố. Nó có nghĩa là gì? Tôi nghĩ rằng chính sách cố định có nghĩa là chính sách …

9 reinforcement-learning terminology policy stationary-policy

1

Các phương pháp gradient chính sách ngoài chính sách có tồn tại không?

Các phương pháp gradient chính sách ngoài chính sách có tồn tại không? Tôi biết rằng chính các phương thức gradient chính sách sử dụng hàm chính sách để lấy mẫu. Nhưng chúng ta có thể dễ dàng có một mô hình để lấy mẫu từ môi trường không? Nếu …

9 reinforcement-learning

5

Tài nguyên tốt để làm quen với việc học tăng cường là gì?

Tôi quen thuộc với việc học có giám sát và không giám sát. Tôi đã thực hiện khóa học SaaS do Andrew Ng thực hiện trên Coursera.org. Tôi đang tìm kiếm một cái gì đó tương tự cho việc học tăng cường. Bạn có thể giới thiệu một cái gì …

8 reinforcement-learning getting-started

1

Có mô hình học máy nào khác ngoài Học tăng cường và Học Q để chơi trò chơi video không?

Vũ trụ của OpenAI sử dụng thuật toán RL và tôi đã nghe nói về một số dự án đào tạo trò chơi bằng cách sử dụng Q learning, nhưng có bất kỳ dự án nào khác được sử dụng để làm chủ / chiến thắng trò chơi không? Các …

8 machine-learning reinforcement-learning genetic-algorithms game-theory

1

Tìm hiểu MDPs không gian trạng thái / hành động liên tục và Học tăng cường

Hầu hết các giới thiệu về lĩnh vực MDP và học tập Củng cố chỉ tập trung vào các miền trong đó các biến không gian và hành động là số nguyên (và hữu hạn). Bằng cách này, chúng tôi được giới thiệu nhanh chóng về Lặp lại giá trị, …

8 research reinforcement-learning control-problem

1

Có các thuật toán học tập củng cố quy mô cho các vấn đề lớn?

Đưa ra một vấn đề lớn, phép lặp giá trị và các cách tiếp cận dựa trên bảng khác dường như đòi hỏi quá nhiều lần lặp trước khi chúng bắt đầu hội tụ. Có cách tiếp cận học tập củng cố nào khác mà quy mô tốt hơn cho …

7 reinforcement-learning

1

Có sự khác biệt trong kiến trúc của việc học tăng cường sâu khi nhiều hành động được thực hiện thay vì một hành động không?

Tôi đã xây dựng một tác nhân học tập củng cố độ dốc chính sách xác định sâu để có thể xử lý bất kỳ trò chơi / nhiệm vụ nào chỉ có một hành động. Tuy nhiên, tác nhân dường như thất bại khủng khiếp khi có hai hoặc …

7 deep-learning reinforcement-learning

Câu hỏi được gắn thẻ «reinforcement-learning»