Câu hỏi được gắn thẻ «reinforcement-learning»

Một tập hợp các chiến lược động mà thuật toán có thể tìm hiểu cấu trúc của một môi trường trực tuyến bằng cách thực hiện một cách thích ứng các hành động liên quan đến các phần thưởng khác nhau để tối đa hóa các phần thưởng kiếm được.





2
Học tập có giám sát, học tập không giám sát và học tập củng cố: Cơ bản về quy trình làm việc
Học có giám sát 1) Một con người xây dựng một phân loại dựa trên đầu vào và đầu ra dữ liệu 2) Trình phân loại đó được đào tạo với một tập dữ liệu 3) Trình phân loại đó được kiểm tra với bộ dữ liệu thử nghiệm 4) …


3
Phân tích chuỗi thời gian hàng ngày
Tôi đang cố gắng phân tích chuỗi thời gian và mới đối với lĩnh vực này. Tôi có số lượng sự kiện hàng ngày từ 2006-2009 và tôi muốn điều chỉnh mô hình chuỗi thời gian cho nó. Đây là tiến bộ mà tôi đã thực hiện: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) …





1
Khi nào nên chọn SARSA so với Q Learning
SARSA và Q Learning đều là các thuật toán học tăng cường hoạt động theo cách tương tự. Sự khác biệt nổi bật nhất là SARSA nằm trong chính sách trong khi Q Learning không có chính sách. Các quy tắc cập nhật như sau: Học Q: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] …




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.