Câu hỏi được gắn thẻ «reinforcement-learning»

Một tập hợp các chiến lược động mà thuật toán có thể tìm hiểu cấu trúc của một môi trường trực tuyến bằng cách thực hiện một cách thích ứng các hành động liên quan đến các phần thưởng khác nhau để tối đa hóa các phần thưởng kiếm được.


1
GAM vs LOESS vs splines
Bối cảnh : Tôi muốn vẽ một đường trong một phân tán mà không xuất hiện tham số, do đó tôi đang sử dụng geom_smooth()ở ggplottrong R. Nó tự động trả về geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs …







1
Làm cách nào để khớp trọng số vào các giá trị Q với xấp xỉ hàm tuyến tính
Trong học tăng cường, xấp xỉ hàm tuyến tính thường được sử dụng khi có không gian trạng thái lớn. (Khi tra cứu bảng trở nên không khả thi.) Dạng của giá trị với xấp xỉ hàm tuyến tính được cho bởiQ−Q−Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + …





1
Một mô hình của P (Y | X) có thể được đào tạo thông qua việc giảm độ dốc ngẫu nhiên từ các mẫu không iid của P (X) và mẫu iid của P (Y | X) không?
Khi đào tạo một mô hình được tham số hóa (ví dụ để tối đa hóa khả năng) thông qua việc giảm độ dốc ngẫu nhiên trên một số tập dữ liệu, người ta thường cho rằng các mẫu đào tạo được rút ra từ phân phối dữ liệu đào …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.