Chúng ta có thể phá vỡ vấn đề như sau:
< x0, y0, x1, y1>( x0- y0)2+ ( x1- y1)2------------------√
< x0, y0, x1, y1>
Tất nhiên, không có lý do gì để thực hiện điều này trong hai mạng nơ ron riêng biệt, vì vậy chúng ta chỉ cần kết hợp hai đầu cuối với một mô hình lấy hình ảnh làm đầu vào và khoảng cách làm đầu ra.
Tuy nhiên, mô hình này sẽ cần được đào tạo về dữ liệu được dán nhãn, do đó, bạn cần phải tự tạo dữ liệu hoặc gắn nhãn hình ảnh.
Nhưng nếu bạn muốn nó học được khái niệm thu hẹp khoảng cách theo cách ít giám sát hơn, bạn cần sử dụng học tăng cường. Trong trường hợp này, bạn phải thiết lập một môi trường khuyến khích các đại lý để giảm khoảng cách. Điều này có thể đơn giản như đạt được phần thưởng nếu một hành động làm giảm khoảng cách.
Một cách tiếp cận khác là khuyến khích các đại lý sử dụng phần thưởng trong tương lai. Đó là, phần thưởng không chỉ đến từ kết quả của trạng thái tiếp theo, mà còn có sự đóng góp từ trạng thái có thể tiếp theo, và sau đó, v.v. Đây là ý tưởng đằng sau Deep Q-Learning và tôi thực hiện một ví dụ đơn giản (rất giống với những gì bạn đang mô tả) trong cuốn sổ tay này .
Vì vậy, bây giờ câu hỏi là: việc thực hiện này có làm được điều gì khác ngoài việc di chuyển ngẫu nhiên cho đến khi nó đi theo một con đường dẫn đến thành công không?
Trong ví dụ của bạn, bạn nói về việc thưởng cho đại lý khi nó đạt được mục tiêu. Nhưng trong những gì tôi mô tả, nó đã đạt được phần thưởng bằng cách tiến gần hơn đến mục tiêu (thông qua Chức năng Q hoặc trực tiếp từ môi trường). Nó có thể làm như vậy bằng cách học một số ý tưởng trừu tượng về khoảng cách (có thể được minh họa trong phiên bản được giám sát).
Khi một con người học được điều này, nó cũng có cùng lý do: con người đang nhận được phần thưởng cho việc di chuyển theo hướng đó thông qua ý nghĩa về những phần thưởng trong tương lai.
Tôi muốn nói rằng, được cung cấp đủ dữ liệu và đào tạo, học tập củng cố có thể học được khái niệm này một cách dễ dàng. Theo như các phần thưởng khác có mặt trên bảng (ví dụ: "giảm thiểu entropy của bảng cũng như cố gắng nhận phần thưởng"), bạn cần suy nghĩ về những gì bạn đang hỏi. Bạn có muốn các đại lý tối thiểu hóa khoảng cách hoặc tối đa hóa phần thưởng? Nguyên nhân, nói chung, nó không thể làm cả hai. Nếu bạn đang tìm kiếm sự cân bằng giữa hai người, thì thực sự bạn chỉ cần xác định lại phần thưởng để xem xét khoảng cách.