Thống kê và dữ liệu lớn reinforcement-learning

2

Câu hỏi về Q-Learning sử dụng Mạng thần kinh

Tôi đã triển khai Q-Learning như được mô tả trong, http://web.cs.swarthmore.edu/~meeden/cs81/s12/ con / MarkStevePaper.pdf Để khoảng. Q (S, A) Tôi sử dụng cấu trúc mạng thần kinh như sau, Kích hoạt sigmoid Đầu vào, số lượng đầu vào + 1 cho các nơ ron hành động (Tất cả các đầu …

14 machine-learning neural-networks reinforcement-learning

1

GAM vs LOESS vs splines

Bối cảnh : Tôi muốn vẽ một đường trong một phân tán mà không xuất hiện tham số, do đó tôi đang sử dụng geom_smooth()ở ggplottrong R. Nó tự động trả về geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

Sự khác biệt giữa tập và kỷ nguyên trong học tập Q sâu là gì?

Tôi đang cố gắng để hiểu bài báo nổi tiếng "Chơi Atari với học tập tăng cường sâu" ( pdf ). Tôi không rõ về sự khác biệt giữa một kỷ nguyên và tập phim . Trong thuật toán , vòng lặp bên ngoài là các tập , trong khi …

14 neural-networks terminology reinforcement-learning q-learning

1

Tại sao học tập củng cố sâu không ổn định?

Trong bài viết năm 2015 của DeepMind về học tập củng cố sâu, đã nói rằng "Những nỗ lực trước đây để kết hợp RL với các mạng thần kinh đã thất bại phần lớn do học tập không ổn định". Bài báo sau đó liệt kê một số nguyên …

13 machine-learning neural-networks deep-learning reinforcement-learning

4

Tại sao luôn có ít nhất một chính sách tốt hơn hoặc bằng tất cả các chính sách khác?

Học tăng cường: Giới thiệu. Phiên bản thứ hai, đang được tiến hành ., Richard S. Sutton và Andrew G. Barto (c) 2012, trang 67-68. Giải quyết một nhiệm vụ học tập củng cố có nghĩa là, đại khái, tìm ra một chính sách đạt được rất nhiều phần thưởng …

13 markov-process reinforcement-learning

1

Thuật toán tối ưu để giải quyết vấn đề tên cướp vũ trang n?

Tôi đã đọc về một số thuật toán để giải quyết các vấn đề về kẻ cướp có vũ trang như -greedy, softmax và UCB1, nhưng tôi gặp một số khó khăn trong việc sắp xếp phương pháp nào là tốt nhất để giảm thiểu sự hối tiếc.ϵϵ\epsilon Có một …

13 machine-learning reinforcement-learning multiarmed-bandit

2

Tại sao kinh nghiệm phát lại yêu cầu thuật toán ngoài chính sách?

Trong bài viết giới thiệu DQN " Chơi Atari với học tập tăng cường sâu ", nó đã đề cập: Lưu ý rằng khi học bằng phát lại kinh nghiệm, cần phải học chính sách ngoài (vì các tham số hiện tại của chúng tôi khác với các tham số …

12 reinforcement-learning

2

Chuyển vấn đề máy học sang khung hồi quy

Giả sử tôi có một bảng các biến giải thích XitXitX_{it} , với i=1...Ni=1...Ni = 1 ... N , t=1...Tt=1...Tt = 1 ... T , cũng như một vector của các biến phụ thuộc kết quả nhị phân YiTYiTY_{iT} . Vì vậy, YYY chỉ được quan sát tại thời điểm …

12 regression machine-learning reinforcement-learning

1

Làm cách nào để khớp trọng số vào các giá trị Q với xấp xỉ hàm tuyến tính

Trong học tăng cường, xấp xỉ hàm tuyến tính thường được sử dụng khi có không gian trạng thái lớn. (Khi tra cứu bảng trở nên không khả thi.) Dạng của giá trị với xấp xỉ hàm tuyến tính được cho bởiQ−Q−Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + …

12 machine-learning feature-selection reinforcement-learning

2

Khi nào các phương pháp Monte Carlo được ưa thích hơn các phương pháp khác biệt theo thời gian?

Gần đây tôi đã thực hiện rất nhiều nghiên cứu về Học tập Củng cố. Tôi đã theo dõi Học tập Củng cố của Sutton & Barto : Giới thiệu cho hầu hết những điều này. Tôi biết Quy trình Quyết định của Markov là gì và cách học lập …

12 monte-carlo reinforcement-learning temporal-difference

1

Chính sách giới thiệu trong bài báo của AlphaGo là gì?

Bài báo ở đây . Chính sách giới thiệu ... là chính sách softmax tuyến tính dựa trên các tính năng dựa trên mẫu cục bộ nhanh, được tính toán tăng dần ... Tôi không hiểu chính sách giới thiệu là gì và nó liên quan đến mạng lưới chính …

11 machine-learning monte-carlo reinforcement-learning games

1

Học hỏi với Mạng thần kinh là gần đúng chức năng

Tôi đang cố gắng sử dụng Mạng thần kinh để ước tính giá trị Q trong học tập Q như trong Câu hỏi về Q-Learning sử dụng Mạng thần kinh . Như được đề xuất trong câu trả lời đầu tiên, tôi đang sử dụng chức năng kích hoạt tuyến …

11 neural-networks reinforcement-learning

2

Mối quan hệ giữa lý thuyết trò chơi và học tập củng cố là gì?

Tôi quan tâm đến (Deep) Học tăng cường (RL) . Trước khi đi sâu vào lĩnh vực này, tôi có nên tham gia một khóa học về Lý thuyết trò chơi (GT) không? Làm thế nào GT và RL liên quan?

11 deep-learning reinforcement-learning game-theory

1

Một mô hình của P (Y | X) có thể được đào tạo thông qua việc giảm độ dốc ngẫu nhiên từ các mẫu không iid của P (X) và mẫu iid của P (Y | X) không?

Khi đào tạo một mô hình được tham số hóa (ví dụ để tối đa hóa khả năng) thông qua việc giảm độ dốc ngẫu nhiên trên một số tập dữ liệu, người ta thường cho rằng các mẫu đào tạo được rút ra từ phân phối dữ liệu đào …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

Tại sao thuật toán lặp chính sách hội tụ đến hàm chính sách và giá trị tối ưu?

Tôi đã đọc các ghi chú bài giảng của Andrew Ng về học tập củng cố và tôi đã cố gắng hiểu tại sao phép lặp chính sách lại hội tụ đến hàm giá trị tối ưu và chính sách tối ưu .V*V∗V^*π*π∗\pi^* Nhớ lại chính sách lặp lại là: …

10 reinforcement-learning policy-iteration

Câu hỏi được gắn thẻ «reinforcement-learning»