Ai đó có thể giải thích một lớp tổng hợp tối đa toàn cầu là gì và tại sao và khi nào chúng ta sử dụng nó để đào tạo một mạng lưới thần kinh. Họ có bất kỳ lợi thế so với lớp tổng hợp tối đa thông thường?
Ai đó có thể giải thích một lớp tổng hợp tối đa toàn cầu là gì và tại sao và khi nào chúng ta sử dụng nó để đào tạo một mạng lưới thần kinh. Họ có bất kỳ lợi thế so với lớp tổng hợp tối đa thông thường?
Câu trả lời:
Global max pooling = lớp tổng hợp tối đa thông thường với kích thước pool bằng với kích thước của đầu vào (chính xác là trừ kích thước bộ lọc + 1, chính xác). Bạn có thể thấy rằng MaxPooling1D
có một pool_length
đối số, trong khi GlobalMaxPooling1D
không.
Ví dụ: nếu đầu vào của lớp gộp tối đa là , đầu ra gộp chung tối đa 5 , trong khi lớp gộp tối đa thông thường với kích thước nhóm bằng 3 đầu ra 2 , 2 , 5 , 5 , 5 (giả sử sải chân = 1).
Điều này có thể được nhìn thấy trong mã :
class GlobalMaxPooling1D(_GlobalPooling1D):
"""Global max pooling operation for temporal data.
# Input shape
3D tensor with shape: `(samples, steps, features)`.
# Output shape
2D tensor with shape: `(samples, features)`.
"""
def call(self, x, mask=None):
return K.max(x, axis=1)
Trong một số miền, chẳng hạn như xử lý ngôn ngữ tự nhiên, người ta thường sử dụng tổng hợp tối đa toàn cầu. Trong một số lĩnh vực khác, chẳng hạn như tầm nhìn máy tính, người ta thường sử dụng nhóm tối đa không phải là toàn cầu.
Như được mô tả trong bài viết này đề xuất tổng hợp trung bình toàn cầu (GAP):
Mạng thần kinh tích chập thông thường thực hiện tích chập ở các lớp dưới của mạng. Để phân loại, các bản đồ đặc trưng của lớp chập cuối cùng được vector hóa và đưa vào các lớp được kết nối đầy đủ theo sau là lớp hồi quy logistic softmax. Cấu trúc này kết nối cấu trúc chập với các phân loại mạng thần kinh truyền thống. Nó xử lý các lớp chập như các trình trích xuất tính năng và tính năng kết quả được phân loại theo cách truyền thống.
Tuy nhiên, các lớp được kết nối đầy đủ có xu hướng bị quá mức, do đó cản trở khả năng khái quát hóa của toàn bộ mạng. Dropout được đề xuất bởi Hinton et al như một người thường xuyên, đặt ngẫu nhiên một nửa số kích hoạt thành các lớp được kết nối đầy đủ về 0 trong quá trình đào tạo. Nó đã cải thiện khả năng khái quát hóa và phần lớn ngăn ngừa quá mức.
Trong bài báo này, chúng tôi đề xuất một chiến lược khác gọi là tổng hợp trung bình toàn cầu để thay thế các lớp được kết nối đầy đủ truyền thống trong CNN. Ý tưởng là tạo một bản đồ tính năng cho từng loại tương ứng của nhiệm vụ phân loại trong lớp mlpconv cuối cùng. Thay vì thêm các lớp được kết nối đầy đủ lên trên các bản đồ đặc trưng, chúng tôi lấy trung bình của mỗi bản đồ tính năng và vectơ kết quả được đưa trực tiếp vào lớp softmax. Một lợi thế của việc gộp trung bình toàn cầu trên các lớp được kết nối đầy đủ là nó có nguồn gốc hơn với cấu trúc tích chập bằng cách thực thi các tương ứng giữa các bản đồ và danh mục tính năng. Do đó, bản đồ tính năng có thể dễ dàng được hiểu là bản đồ độ tin cậy danh mục. Một lợi thế khác là không có tham số để tối ưu hóa trong nhóm trung bình toàn cầu, do đó, quá mức được tránh ở lớp này. Hơn nữa, tổng hợp trung bình toàn cầu tổng hợp các thông tin không gian, do đó, mạnh mẽ hơn đối với các bản dịch không gian của đầu vào. Chúng ta có thể thấy việc gộp chung trung bình toàn cầu như một bộ chỉnh lưu cấu trúc thực thi rõ ràng các bản đồ đặc trưng thành bản đồ độ tin cậy của các khái niệm (danh mục). Điều này được thực hiện bởi các lớp mlpconv, vì chúng làm cho xấp xỉ tốt hơn với các bản đồ độ tin cậy so với GLM.
Chỉnh sửa: Theo đề xuất của @MaxLawnboy, đây là một bài viết khác về cùng chủ đề .