Câu hỏi được gắn thẻ «reinforcement-learning»

Một tập hợp các chiến lược động mà thuật toán có thể tìm hiểu cấu trúc của một môi trường trực tuyến bằng cách thực hiện một cách thích ứng các hành động liên quan đến các phần thưởng khác nhau để tối đa hóa các phần thưởng kiếm được.




4
Làm cách nào để diễn giải đường cong sinh tồn của mô hình nguy hiểm Cox?
Làm thế nào để bạn giải thích một đường cong sống sót từ mô hình nguy cơ tỷ lệ cox? Trong ví dụ về đồ chơi này, giả sử chúng ta có mô hình nguy hiểm theo tỷ lệ cox trên agebiến trong kidneydữ liệu và tạo đường cong sinh …





2
Giới hạn niềm tin trên trong học máy
Tôi đã tìm ra công thức để đạt được giới hạn tin cậy cao hơn về vấn đề tên cướp k-armed: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Trong đó là số lượng mẫu chúng ta có cho tên cướp cụ thể này và là tổng số lượng mẫu chúng ta có từ tất cả …


3
Học tăng cường về dữ liệu lịch sử
Tôi đang nghiên cứu chính sách tối ưu hóa thông tin liên lạc cho khách hàng (sẽ gửi thông báo nào, gửi bao nhiêu và khi nào gửi). Tôi có dữ liệu lịch sử của các thông báo trong quá khứ được gửi (có dấu thời gian) và màn trình …


3



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.