Tại sao mạng nơ ron hợp nhất của AlphaGo Zero hiệu quả hơn hai mạng thần kinh riêng biệt?


10

AlphaGo Zero chứa một số cải tiến so với người tiền nhiệm của nó. Các chi tiết kiến ​​trúc của Alpha Go Zero có thể được nhìn thấy trong bảng cheat này .

Một trong những cải tiến đó là sử dụng một mạng thần kinh duy nhất để tính toán xác suất di chuyển và giá trị trạng thái cùng một lúc, trong khi các phiên bản cũ hơn sử dụng hai mạng thần kinh riêng biệt. Nó đã được chỉ ra rằng mạng lưới thần kinh được hợp nhất là hiệu quả hơn theo bài báo:

Nó sử dụng một mạng thần kinh chứ không phải hai. Các phiên bản trước đó của AlphaGo đã sử dụng một mạng chính sách của người dùng khác để chọn cách di chuyển tiếp theo để chơi và một mạng giá trị của LÊNH để dự đoán người chiến thắng trò chơi từ mỗi vị trí. Chúng được kết hợp trong AlphaGo Zero, cho phép nó được đào tạo và đánh giá hiệu quả hơn.

Điều này có vẻ trái ngược với tôi, bởi vì từ góc độ thiết kế phần mềm, điều này vi phạm nguyên tắc phân tách mối quan tâm . Đó là lý do tại sao tôi tự hỏi, tại sao sự hợp nhất này đã được chứng minh là có lợi.

Kỹ thuật này - có thể hợp nhất các nhiệm vụ khác nhau trong một mạng thần kinh duy nhất để cải thiện hiệu quả - có thể được áp dụng cho các mạng thần kinh khác nói chung hay điều này đòi hỏi một số điều kiện nhất định để hoạt động?

Câu trả lời:


6

Tại sao sự hợp nhất này được chứng minh là có lợi?

Nếu bạn nghĩ về mạng Giá trị / Chính sách được chia sẻ bao gồm một thành phần được chia sẻ (các lớp Mạng dư) với thành phần Giá trị và Chính sách ở trên thay vì Tách biệt các mối quan tâm thì điều đó có ý nghĩa hơn.

Tiền đề cơ bản là phần chia sẻ của mạng (ResNet) cung cấp tổng quát hóa mức cao của đầu vào (trạng thái trò chơi dẫn đến di chuyển) là đại diện đầu vào tốt cho cả mạng Chính sách và Giá trị nông.

Khi đó là trường hợp, chúng ta có thể giảm tải tính toán rất nhiều bằng cách đào tạo một ResNet được chia sẻ duy nhất và sử dụng nó cho hai mạng đơn giản hơn nhiều so với đào tạo hai ResNets cho Giá trị và Chính sách. Trong trường hợp của họ, đào tạo cả hai cùng nhau cũng cải thiện sự chính quy và do đó tạo ra một đại diện chung mạnh mẽ hơn.

Cụ thể, bài báo Alpha Go Zero của Silver et al. , Làm chủ trò chơi cờ vây mà không có kiến ​​thức về con người , nói rằng:

Kết hợp chính sách và giá trị với nhau thành một mạng làm giảm nhẹ độ chính xác dự đoán di chuyển, nhưng giảm lỗi giá trị và tăng hiệu suất chơi trong AlphaGo khoảng 600 Elo khác. Điều này một phần là do hiệu quả tính toán được cải thiện, nhưng quan trọng hơn là mục tiêu kép điều chỉnh mạng thành một đại diện chung hỗ trợ nhiều trường hợp sử dụng.

Kỹ thuật này có thể được áp dụng nói chung hoặc chỉ trong trường hợp đặc biệt?

Giống như các thành phần phổ biến trong các thư viện phần mềm, nó chỉ có ý nghĩa khi các vấn đề bạn đang cố gắng giải quyết lợi ích từ một đại diện được chia sẻ.

Bạn có thể sử dụng nó nếu bạn đang đào tạo các trình phân loại cho các nhiệm vụ tương tự hoặc đào tạo một nhiệm vụ mới với ít dữ liệu mà bạn đã có một trình phân loại được đào tạo qua một tương tự lớn hơn, tương tự tập dữ liệu .

Bên ngoài Go, nó thường được sử dụng trong nhận dạng hình ảnh. Các mạng được đào tạo trước sâu như các mạng từ các cuộc thi ImageNet ILSVRC thường được sử dụng làm điểm khởi đầu. Họ là những người phân loại đã được đào tạo (trong nhiều tuần!) Trên hơn một triệu hình ảnh.

Sau đó, giả sử bạn muốn tạo một mạng để nhận ra thương hiệu xe đạp yêu thích của mình, bạn bắt đầu với đường dẫn nhận dạng hình ảnh chung được đào tạo trên ImageNet, cắt các lớp cuối cùng thực hiện phân loại thực tế ("đó là Border Collie") và thêm một phân loại nhỏ mới để chọn ra những chiếc xe đạp bạn quan tâm.

Vì trình phân loại được đào tạo trước đã cung cấp các khái niệm hình ảnh cấp cao là các khối xây dựng tốt để nhận dạng hình ảnh (nó phân loại 200 danh mục), điều này giúp bạn tiết kiệm rất nhiều đào tạo và tạo ra một trình phân loại rất mạnh mẽ.

Tất nhiên, có nhiều trường hợp các vấn đề không có các đại diện được chia sẻ hữu ích và do đó không có lợi ích từ một mạng kết hợp. Tuy nhiên, nó là một công cụ hữu ích trong các tình huống phù hợp.

Tra cứu Học chuyển hoặc Học đa tác vụ để tìm hiểu thêm về điều này.


Nếu một người muốn sử dụng các nguyên tắc công nghệ phần mềm để phân tích kiến ​​trúc của mạng nơ-ron này, tôi cũng sẽ chỉ ra rằng mạng khối còn lại mà theo đó các giá trị và chính sách đứng đầu tôn trọng nguyên tắc DRY. Bằng cách phụ thuộc vào cùng một thành phần (mạng khối dư) để xử lý dữ liệu trước khi truyền dữ liệu này cho các thành phần khác trong đường ống (các giá trị và đầu chính sách), chúng đảm bảo rằng mỗi sẽ xử lý cùng một đại diện của đầu vào ban đầu. Sao chép quá trình xử lý này với hai mạng riêng biệt gần như đảm bảo phân kỳ theo thời gian.
sadakatsu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.