Thống kê và dữ liệu lớn reinforcement-learning

1

Làm thế nào chính xác để tính toán Hàm mất Q-Learning sâu?

Tôi nghi ngờ về cách chính xác chức năng mất của Mạng Q-Learning sâu được đào tạo. Tôi đang sử dụng một mạng feedforward 2 lớp với lớp đầu ra tuyến tính và các lớp ẩn relu. Giả sử tôi có 4 hành động có thể. Do đó, đầu ra …

10 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

Tổng quan về thuật toán học tăng cường

Tôi hiện đang tìm kiếm một Tổng quan về các thuật toán học tăng cường và có thể phân loại chúng. Nhưng bên cạnh Sarsa và Q-Learning + Deep Q-Learning tôi thực sự không thể tìm thấy bất kỳ thuật toán phổ biến nào. Wikipedia cung cấp cho tôi một …

9 reinforcement-learning q-learning

2

Học tăng cường trong môi trường không cố định

Câu 1: Có các phương pháp phổ biến hoặc được chấp nhận để xử lý môi trường không cố định trong học tập Củng cố nói chung không? Q2: Trong thế giới lưới của tôi, tôi có chức năng phần thưởng thay đổi khi một trạng thái được truy cập. …

9 markov-process reinforcement-learning stationarity q-learning

4

Làm cách nào để diễn giải đường cong sinh tồn của mô hình nguy hiểm Cox?

Làm thế nào để bạn giải thích một đường cong sống sót từ mô hình nguy cơ tỷ lệ cox? Trong ví dụ về đồ chơi này, giả sử chúng ta có mô hình nguy hiểm theo tỷ lệ cox trên agebiến trong kidneydữ liệu và tạo đường cong sinh …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Q-learning hiệu quả như thế nào với Mạng nơ-ron khi có một đơn vị đầu ra cho mỗi hành động?

Bối cảnh: Tôi đang sử dụng xấp xỉ giá trị Q của Mạng thần kinh trong nhiệm vụ học tập củng cố của mình. Cách tiếp cận hoàn toàn giống như một mô tả trong câu hỏi này , tuy nhiên bản thân câu hỏi là khác nhau. Theo cách …

9 machine-learning neural-networks reinforcement-learning q-learning

5

Tại sao (và khi nào) người ta phải học hàm thưởng từ các mẫu trong học tăng cường?

Trong học tập củng cố, chúng tôi có một chức năng khen thưởng thông báo cho các đại lý về các hành động và trạng thái hiện tại của nó đang làm tốt như thế nào. Trong một số những gì thiết lập chung, chức năng phần thưởng là một …

9 machine-learning reinforcement-learning

2

Bất kỳ mã ví dụ của thuật toán REINFORCE được đề xuất bởi Williams?

Có ai biết ví dụ về Thuật toán Williams được đề xuất trong Bài viết "Một lớp thuật toán ước tính độ dốc để học tăng cường trong các mạng thần kinh" http://incompleteideas.net/sutton/williams-92.pdf

9 reinforcement-learning

1

Chức năng mất chỉ trích diễn viên trong học tập củng cố

Trong học tập phê bình diễn viên để học tăng cường, tôi hiểu rằng bạn có một "diễn viên" đang quyết định hành động và một "nhà phê bình" sau đó đánh giá những hành động đó, tuy nhiên, tôi bối rối về chức năng mất thực sự đang nói …

9 machine-learning reinforcement-learning actor-critic

2

Giới hạn niềm tin trên trong học máy

Tôi đã tìm ra công thức để đạt được giới hạn tin cậy cao hơn về vấn đề tên cướp k-armed: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Trong đó là số lượng mẫu chúng ta có cho tên cướp cụ thể này và là tổng số lượng mẫu chúng ta có từ tất cả …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

2

Là một chính sách luôn luôn xác định trong học tập củng cố?

Trong học tập củng cố, một chính sách luôn luôn mang tính quyết định, hay nó là một phân phối xác suất qua các hành động (từ đó chúng ta lấy mẫu)? Nếu chính sách này là xác định, tại sao không phải là chức năng giá trị, được quy …

8 reinforcement-learning deterministic-policy stochastic-policy

3

Học tăng cường về dữ liệu lịch sử

Tôi đang nghiên cứu chính sách tối ưu hóa thông tin liên lạc cho khách hàng (sẽ gửi thông báo nào, gửi bao nhiêu và khi nào gửi). Tôi có dữ liệu lịch sử của các thông báo trong quá khứ được gửi (có dấu thời gian) và màn trình …

8 reinforcement-learning

3

Tại sao không có xác suất chuyển tiếp trong Q-Learning (học tăng cường)?

Trong học tập củng cố, mục tiêu của chúng tôi là tối ưu hóa hàm giá trị trạng thái hoặc hàm giá trị hành động, được xác định như sau: VπS= ∑ p ( s'| s,π( s ) ) [ r ( s'| s,π( S ) ) + γVπ( s') …

8 reinforcement-learning q-learning

3

Tìm phân phối và chuyển đổi sang phân phối bình thường

Tôi có dữ liệu mô tả tần suất một sự kiện diễn ra trong một giờ ("số lượng mỗi giờ", nph) và thời gian các sự kiện kéo dài ("thời gian tính bằng giây mỗi giờ", dph). Đây là dữ liệu gốc: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Sự khác biệt giữa lập trình động và học khác biệt theo thời gian trong học tăng cường

Trong học tập củng cố, sự khác biệt giữa lập trình động và học khác biệt theo thời gian là gì?

8 reinforcement-learning

2

Có phải kế hoạch trong Dyna-Q là một hình thức phát lại kinh nghiệm?

Trong cuốn sách của Richard Sutton về RL (ấn bản 2) , ông trình bày thuật toán Dyna-Q, kết hợp giữa lập kế hoạch và học tập. Trong phần kế hoạch của thuật toán, các Dyna-agent mẫu ngẫu nhiên n cặp bang-action trước đây nhìn thấy bởi các đại lý, …

8 reinforcement-learning q-learning

Câu hỏi được gắn thẻ «reinforcement-learning»