Tại sao sự hợp nhất này được chứng minh là có lợi?
Nếu bạn nghĩ về mạng Giá trị / Chính sách được chia sẻ bao gồm một thành phần được chia sẻ (các lớp Mạng dư) với thành phần Giá trị và Chính sách ở trên thay vì Tách biệt các mối quan tâm thì điều đó có ý nghĩa hơn.
Tiền đề cơ bản là phần chia sẻ của mạng (ResNet) cung cấp tổng quát hóa mức cao của đầu vào (trạng thái trò chơi dẫn đến di chuyển) là đại diện đầu vào tốt cho cả mạng Chính sách và Giá trị nông.
Khi đó là trường hợp, chúng ta có thể giảm tải tính toán rất nhiều bằng cách đào tạo một ResNet được chia sẻ duy nhất và sử dụng nó cho hai mạng đơn giản hơn nhiều so với đào tạo hai ResNets cho Giá trị và Chính sách. Trong trường hợp của họ, đào tạo cả hai cùng nhau cũng cải thiện sự chính quy và do đó tạo ra một đại diện chung mạnh mẽ hơn.
Cụ thể, bài báo Alpha Go Zero của Silver et al. , Làm chủ trò chơi cờ vây mà không có kiến thức về con người , nói rằng:
Kết hợp chính sách và giá trị với nhau thành một mạng làm giảm nhẹ độ chính xác dự đoán di chuyển, nhưng giảm lỗi giá trị và tăng hiệu suất chơi trong AlphaGo khoảng 600 Elo khác. Điều này một phần là do hiệu quả tính toán được cải thiện, nhưng quan trọng hơn là mục tiêu kép điều chỉnh mạng thành một đại diện chung hỗ trợ nhiều trường hợp sử dụng.
Kỹ thuật này có thể được áp dụng nói chung hoặc chỉ trong trường hợp đặc biệt?
Giống như các thành phần phổ biến trong các thư viện phần mềm, nó chỉ có ý nghĩa khi các vấn đề bạn đang cố gắng giải quyết lợi ích từ một đại diện được chia sẻ.
Bạn có thể sử dụng nó nếu bạn đang đào tạo các trình phân loại cho các nhiệm vụ tương tự hoặc đào tạo một nhiệm vụ mới với ít dữ liệu mà bạn đã có một trình phân loại được đào tạo qua một tương tự lớn hơn, tương tự tập dữ liệu .
Bên ngoài Go, nó thường được sử dụng trong nhận dạng hình ảnh. Các mạng được đào tạo trước sâu như các mạng từ các cuộc thi ImageNet ILSVRC thường được sử dụng làm điểm khởi đầu. Họ là những người phân loại đã được đào tạo (trong nhiều tuần!) Trên hơn một triệu hình ảnh.
Sau đó, giả sử bạn muốn tạo một mạng để nhận ra thương hiệu xe đạp yêu thích của mình, bạn bắt đầu với đường dẫn nhận dạng hình ảnh chung được đào tạo trên ImageNet, cắt các lớp cuối cùng thực hiện phân loại thực tế ("đó là Border Collie") và thêm một phân loại nhỏ mới để chọn ra những chiếc xe đạp bạn quan tâm.
Vì trình phân loại được đào tạo trước đã cung cấp các khái niệm hình ảnh cấp cao là các khối xây dựng tốt để nhận dạng hình ảnh (nó phân loại 200 danh mục), điều này giúp bạn tiết kiệm rất nhiều đào tạo và tạo ra một trình phân loại rất mạnh mẽ.
Tất nhiên, có nhiều trường hợp các vấn đề không có các đại diện được chia sẻ hữu ích và do đó không có lợi ích từ một mạng kết hợp. Tuy nhiên, nó là một công cụ hữu ích trong các tình huống phù hợp.
Tra cứu Học chuyển hoặc Học đa tác vụ để tìm hiểu thêm về điều này.