Lớp tổng hợp tối đa toàn cầu là gì và lợi thế của nó so với lớp maxpooling là gì?


Câu trả lời:


69

Global max pooling = lớp tổng hợp tối đa thông thường với kích thước pool bằng với kích thước của đầu vào (chính xác là trừ kích thước bộ lọc + 1, chính xác). Bạn có thể thấy rằng MaxPooling1Dcó một pool_lengthđối số, trong khi GlobalMaxPooling1Dkhông.

Ví dụ: nếu đầu vào của lớp gộp tối đa là , đầu ra gộp chung tối đa 5 , trong khi lớp gộp tối đa thông thường với kích thước nhóm bằng 3 đầu ra 2 , 2 , 5 , 5 , 5 (giả sử sải chân = 1).0,1,2,2,5,1,252,2,5,5,5

Điều này có thể được nhìn thấy trong :

class GlobalMaxPooling1D(_GlobalPooling1D):
    """Global max pooling operation for temporal data.
    # Input shape
        3D tensor with shape: `(samples, steps, features)`.
    # Output shape
        2D tensor with shape: `(samples, features)`.
    """

    def call(self, x, mask=None):
        return K.max(x, axis=1)

Trong một số miền, chẳng hạn như xử lý ngôn ngữ tự nhiên, người ta thường sử dụng tổng hợp tối đa toàn cầu. Trong một số lĩnh vực khác, chẳng hạn như tầm nhìn máy tính, người ta thường sử dụng nhóm tối đa không phải là toàn cầu.


4
Đến đây để tìm nhóm tổng hợp trung bình toàn cầu (GAP) nhưng từ ví dụ đơn giản nhưng rất hiệu quả của bạn, tôi nghĩ tôi có thể đoán GAP làm gì :)
josh

Cảm ơn bạn cho câu trả lời rất ngắn gọn này. +1. Một ví dụ nhỏ mà bạn đưa ra là những gì thực sự khiến tôi hiểu Global Max Pooling đang làm gì.
rayryeng - Phục hồi Monica

13

Như được mô tả trong bài viết này đề xuất tổng hợp trung bình toàn cầu (GAP):

Mạng thần kinh tích chập thông thường thực hiện tích chập ở các lớp dưới của mạng. Để phân loại, các bản đồ đặc trưng của lớp chập cuối cùng được vector hóa và đưa vào các lớp được kết nối đầy đủ theo sau là lớp hồi quy logistic softmax. Cấu trúc này kết nối cấu trúc chập với các phân loại mạng thần kinh truyền thống. Nó xử lý các lớp chập như các trình trích xuất tính năng và tính năng kết quả được phân loại theo cách truyền thống.

Tuy nhiên, các lớp được kết nối đầy đủ có xu hướng bị quá mức, do đó cản trở khả năng khái quát hóa của toàn bộ mạng. Dropout được đề xuất bởi Hinton et al như một người thường xuyên, đặt ngẫu nhiên một nửa số kích hoạt thành các lớp được kết nối đầy đủ về 0 trong quá trình đào tạo. Nó đã cải thiện khả năng khái quát hóa và phần lớn ngăn ngừa quá mức.

Trong bài báo này, chúng tôi đề xuất một chiến lược khác gọi là tổng hợp trung bình toàn cầu để thay thế các lớp được kết nối đầy đủ truyền thống trong CNN. Ý tưởng là tạo một bản đồ tính năng cho từng loại tương ứng của nhiệm vụ phân loại trong lớp mlpconv cuối cùng. Thay vì thêm các lớp được kết nối đầy đủ lên trên các bản đồ đặc trưng, ​​chúng tôi lấy trung bình của mỗi bản đồ tính năng và vectơ kết quả được đưa trực tiếp vào lớp softmax. Một lợi thế của việc gộp trung bình toàn cầu trên các lớp được kết nối đầy đủ là nó có nguồn gốc hơn với cấu trúc tích chập bằng cách thực thi các tương ứng giữa các bản đồ và danh mục tính năng. Do đó, bản đồ tính năng có thể dễ dàng được hiểu là bản đồ độ tin cậy danh mục. Một lợi thế khác là không có tham số để tối ưu hóa trong nhóm trung bình toàn cầu, do đó, quá mức được tránh ở lớp này. Hơn nữa, tổng hợp trung bình toàn cầu tổng hợp các thông tin không gian, do đó, mạnh mẽ hơn đối với các bản dịch không gian của đầu vào. Chúng ta có thể thấy việc gộp chung trung bình toàn cầu như một bộ chỉnh lưu cấu trúc thực thi rõ ràng các bản đồ đặc trưng thành bản đồ độ tin cậy của các khái niệm (danh mục). Điều này được thực hiện bởi các lớp mlpconv, vì chúng làm cho xấp xỉ tốt hơn với các bản đồ độ tin cậy so với GLM.

Chỉnh sửa: Theo đề xuất của @MaxLawnboy, đây là một bài viết khác về cùng chủ đề .


Một bài báo khác về tất cả các mô hình CNN arxiv.org/pdf/1412.6806v3.pdf
Maxim Mikhaylov

Cảm ơn @MaxLawnboy, tôi sẽ chỉnh sửa câu trả lời để đưa vào.
Tshilidzi Mudau
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.