Bối cảnh:
Tôi đang sử dụng xấp xỉ giá trị Q của Mạng thần kinh trong nhiệm vụ học tập củng cố của mình. Cách tiếp cận hoàn toàn giống như một mô tả trong câu hỏi này , tuy nhiên bản thân câu hỏi là khác nhau.
Theo cách tiếp cận này, số lượng đầu ra là số lượng hành động chúng ta có thể thực hiện. Và nói một cách đơn giản, thuật toán tuân theo: thực hiện hành động A, khám phá phần thưởng, yêu cầu NN dự đoán giá trị Q cho tất cả các hành động có thể, chọn giá trị Q tối đa, tính Q cho hành động cụ thể A như R + max(new_state_Q)
. Mô hình phù hợp trên các giá trị Q dự đoán chỉ có một trong số chúng được thay thế bằng R + max(new_state_Q)
.
Câu hỏi: Cách tiếp cận này hiệu quả như thế nào nếu số lượng đầu ra lớn?
Nỗ lực: Giả sử có 10 hành động chúng ta có thể thực hiện. Ở mỗi bước, chúng tôi yêu cầu mô hình dự đoán 10 giá trị, ở độ tuổi sớm của mô hình, dự đoán này là tổng số hỗn độn. Sau đó, chúng tôi sửa đổi 1 giá trị của đầu ra và phù hợp với mô hình trên các giá trị này.
Tôi có hai suy nghĩ trái ngược nhau về cách tiếp cận tốt và xấu này và không thể quyết định cái nào đúng:
- Từ một quan điểm, chúng tôi đang đào tạo mỗi nơ ron 9 lần trên một dữ liệu ngẫu nhiên và chỉ một lần trên dữ liệu gần với giá trị thực. Nếu NN dự đoán 5 cho hành động A ở trạng thái S, nhưng giá trị thực là -100, chúng ta sẽ khớp NN 9 lần với giá trị 5 và sau đó một lần với giá trị -100. Nghe có vẻ điên rồ.
- Từ quan điểm khác, việc học về mạng nơ-ron được triển khai như là sự lan truyền trở lại của một lỗi , vì vậy khi mô hình đã dự đoán 5 và chúng tôi đang đào tạo nó trên 5 thì nó sẽ không học được gì mới, vì lỗi là 0. Trọng lượng không được chạm vào . Và chỉ khi chúng ta tính toán -100 và phù hợp với mô hình, nó sẽ thực hiện tính toán lại trọng lượng.
Lựa chọn nào đúng? Có lẽ có điều gì khác tôi không tính đến?
CẬP NHẬT: Bằng cách "hiệu quả" Tôi có nghĩa là so sánh với một cách tiếp cận với một đầu ra - phần thưởng dự đoán. Tất nhiên, hành động sẽ là một phần của đầu vào trong trường hợp này. Vì vậy, cách tiếp cận # 1 đưa ra dự đoán cho tất cả các hành động dựa trên một số trạng thái, cách tiếp cận # 2 đưa ra dự đoán cho hành động cụ thể được thực hiện tại một số trạng thái.