Q-learning hiệu quả như thế nào với Mạng nơ-ron khi có một đơn vị đầu ra cho mỗi hành động?


9

Bối cảnh:
Tôi đang sử dụng xấp xỉ giá trị Q của Mạng thần kinh trong nhiệm vụ học tập củng cố của mình. Cách tiếp cận hoàn toàn giống như một mô tả trong câu hỏi này , tuy nhiên bản thân câu hỏi là khác nhau.

Theo cách tiếp cận này, số lượng đầu ra là số lượng hành động chúng ta có thể thực hiện. Và nói một cách đơn giản, thuật toán tuân theo: thực hiện hành động A, khám phá phần thưởng, yêu cầu NN dự đoán giá trị Q cho tất cả các hành động có thể, chọn giá trị Q tối đa, tính Q cho hành động cụ thể A như R + max(new_state_Q). Mô hình phù hợp trên các giá trị Q dự đoán chỉ có một trong số chúng được thay thế bằng R + max(new_state_Q).

Câu hỏi: Cách tiếp cận này hiệu quả như thế nào nếu số lượng đầu ra lớn?

Nỗ lực: Giả sử có 10 hành động chúng ta có thể thực hiện. Ở mỗi bước, chúng tôi yêu cầu mô hình dự đoán 10 giá trị, ở độ tuổi sớm của mô hình, dự đoán này là tổng số hỗn độn. Sau đó, chúng tôi sửa đổi 1 giá trị của đầu ra và phù hợp với mô hình trên các giá trị này.

Tôi có hai suy nghĩ trái ngược nhau về cách tiếp cận tốt và xấu này và không thể quyết định cái nào đúng:

  • Từ một quan điểm, chúng tôi đang đào tạo mỗi nơ ron 9 lần trên một dữ liệu ngẫu nhiên và chỉ một lần trên dữ liệu gần với giá trị thực. Nếu NN dự đoán 5 cho hành động A ở trạng thái S, nhưng giá trị thực là -100, chúng ta sẽ khớp NN 9 lần với giá trị 5 và sau đó một lần với giá trị -100. Nghe có vẻ điên rồ.
  • Từ quan điểm khác, việc học về mạng nơ-ron được triển khai như là sự lan truyền trở lại của một lỗi , vì vậy khi mô hình đã dự đoán 5 và chúng tôi đang đào tạo nó trên 5 thì nó sẽ không học được gì mới, vì lỗi là 0. Trọng lượng không được chạm vào . Và chỉ khi chúng ta tính toán -100 và phù hợp với mô hình, nó sẽ thực hiện tính toán lại trọng lượng.

Lựa chọn nào đúng? Có lẽ có điều gì khác tôi không tính đến?

CẬP NHẬT: Bằng cách "hiệu quả" Tôi có nghĩa là so sánh với một cách tiếp cận với một đầu ra - phần thưởng dự đoán. Tất nhiên, hành động sẽ là một phần của đầu vào trong trường hợp này. Vì vậy, cách tiếp cận # 1 đưa ra dự đoán cho tất cả các hành động dựa trên một số trạng thái, cách tiếp cận # 2 đưa ra dự đoán cho hành động cụ thể được thực hiện tại một số trạng thái.


Rất khó để đưa ra một câu trả lời dứt khoát cho câu hỏi này ở dạng hiện tại: "phương pháp này hiệu quả đến mức nào?" Chà, điều đó phụ thuộc ... so với cái gì? Phương pháp thay thế nào bạn sẽ đề xuất có thể có hoặc không hiệu quả hơn?
Dennis Soemers

Xin chào @DennisSoemers. Cảm ơn câu hỏi của bạn. Tôi đã cập nhật bài viết của mình. Về cơ bản, phương pháp thay thế đang có một đầu ra - phần thưởng. Và đầu vào N bổ sung cho tất cả các hành động có thể. Cách tiếp cận chính là INPUT (Bang) và OUTPUT (N Phần thưởng cho N hành động). Thay thế là I (Bang + Hành động) và O (Phần thưởng).
Serhiy

Câu trả lời:


1

Vì vậy, hai tùy chọn chúng tôi muốn so sánh là:

  1. Đầu vào = đại diện trạng thái, Đầu ra = 1 nút cho mỗi hành động
  2. Đầu vào = biểu diễn trạng thái + mã hóa hành động một lần nóng, Đầu ra = 1 nút

Đi theo trực giác của riêng tôi, tôi nghi ngờ có sự khác biệt đáng kể về sức mạnh đại diện hoặc tốc độ học tập (về số lần lặp) giữa hai lựa chọn đó.

Đối với sức mạnh đại diện, tùy chọn đầu tiên cung cấp một mạng '' nhỏ hơn 'gần đầu vào và mạng' 'rộng hơn' 'gần đầu ra. Ví dụ, nếu vì lý do nào đó có lợi khi có nhiều trọng lượng gần với các nút đầu vào, thì điều đó có thể đạt được khá nhiều bằng cách làm cho lớp ẩn đầu tiên (gần với đầu vào) lớn hơn một chút.

Về tốc độ học tập, mối quan tâm mà bạn dường như có về cơ bản là dọc theo đường chỉ nói chung là chỉ có tín hiệu học chính xác cho một trong các kết quả đầu ra, chứ không phải cho các kết quả khác. Với tùy chọn thứ hai, chính xác có thể nói như vậy đối với các trọng số được kết nối với các nút đầu vào, vì vậy tôi nghi ngờ có sự khác biệt đáng kể ở đó.

Giống như tôi đã đề cập, tất cả những điều trên chỉ dựa trên trực giác của tôi, sẽ rất thú vị khi thấy các tài liệu tham khảo đáng tin cậy hơn về điều đó.

QQnn

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.