Về CNN, hạt nhân và tỷ lệ / xoay bất biến


17

Tôi có một vài câu hỏi khiến tôi bối rối về CNN.
1) Các tính năng được trích xuất bằng CNN là quy mô và bất biến xoay vòng?
2) Hạt nhân mà chúng ta sử dụng để tích chập với dữ liệu của chúng ta đã được xác định trong tài liệu chưa? Những loại nhân này là gì? nó là khác nhau cho mỗi ứng dụng?

Câu trả lời:


17

1) Các tính năng được trích xuất bằng CNN là bất biến tỷ lệ và xoay?

Bản thân một tính năng trong CNN không phải là bất biến tỷ lệ hoặc xoay. Để biết thêm chi tiết, xem: Học sâu. Ian Goodfellow và Yoshua Bengio và Aaron Courville. 2016: http://egrcc.github.io/docs/dl/deeplearningbook-convnets.pdf ; http://www.deeplearningbook.org/contents/convnets.html :

Convolution không tự nhiên tương đương với một số biến đổi khác, chẳng hạn như thay đổi tỷ lệ hoặc xoay của hình ảnh. Các cơ chế khác là cần thiết để xử lý các loại biến đổi.

Đây là lớp gộp tối đa giới thiệu các bất biến như vậy:

nhập mô tả hình ảnh ở đây

2) Hạt nhân mà chúng ta sử dụng để tích chập với dữ liệu của chúng ta đã được xác định trong tài liệu chưa? Những loại nhân này là gì? nó là khác nhau cho mỗi ứng dụng?

Các hạt nhân được học trong giai đoạn đào tạo của ANN.


Tôi không thể nói chi tiết về tình trạng hiện tại của nghệ thuật, nhưng về chủ đề của điểm 1, tôi thấy điều này thú vị.
GeoMatt22

@Franck 1) Điều đó có nghĩa là, chúng tôi không thực hiện bất kỳ bước đặc biệt nào để thực hiện bất biến xoay vòng hệ thống? và làm thế nào về bất biến tỷ lệ, có thể có được bất biến tỷ lệ từ tổng hợp tối đa?
Aadnan Farooq

2) Các hạt nhân là các tính năng. Tôi đã không nhận được điều đó. [Tại đây] ( wildml.com/2015/11/ trên ) Họ đã đề cập rằng "Ví dụ: trong Phân loại hình ảnh, CNN có thể học cách phát hiện các cạnh từ các pixel thô trong lớp đầu tiên, sau đó sử dụng các cạnh để phát hiện các hình dạng đơn giản trong lớp thứ hai, và sau đó sử dụng các hình dạng này để ngăn chặn các tính năng cấp cao hơn, chẳng hạn như hình dạng khuôn mặt ở các lớp cao hơn. Lớp cuối cùng sau đó là một bộ phân loại sử dụng các tính năng cấp cao này. "
Aadnan Farooq

2
Lưu ý rằng việc gộp nhóm mà bạn đang nói đến được gọi là gộp nhóm và không phải là nhóm chung thường được nhắc đến khi nói về "nhóm tối đa", chỉ gộp chung các kích thước không gian (không phải trên các kênh đầu vào khác nhau ).
Soltius

1
Điều này có nghĩa là một mô hình không có bất kỳ lớp nhóm tối đa nào (hầu hết các kiến ​​trúc SOTA hiện tại không sử dụng nhóm) hoàn toàn phụ thuộc vào quy mô?
shubhamgoel27

5

Tôi nghĩ rằng có một vài điều làm bạn bối rối, vì vậy điều đầu tiên là trước tiên.

x[n]h[n]x[n]h[n]y[n]= =(xh)[n]

y[n]= =Σm= =-x[m] h[n-m]

Ở trên nếu cho tín hiệu một chiều, nhưng có thể nói tương tự đối với hình ảnh, đó chỉ là tín hiệu hai chiều. Trong trường hợp đó, phương trình trở thành:

Tôinew[r,c]= =Σbạn= =-Σv= =-Tôiotôid[bạn,v] k[r-bạn,c-v]

Về mặt hình ảnh, đây là những gì đang xảy ra:

nhập mô tả hình ảnh ở đây

Ở mức độ nào, điều cần lưu ý, đó là hạt nhân , thực sự đã học được trong quá trình đào tạo Mạng lưới thần kinh sâu (DNN). Một hạt nhân sẽ là những gì bạn kết hợp đầu vào của bạn với. DNN sẽ tìm hiểu hạt nhân, sao cho nó đưa ra các khía cạnh nhất định của hình ảnh (hoặc hình ảnh trước đó), sẽ tốt cho việc giảm mất mục tiêu mục tiêu của bạn.

Đây là điểm cốt yếu đầu tiên để hiểu: Theo truyền thống, mọi người đã thiết kế hạt nhân, nhưng trong Deep Learning, chúng tôi để mạng quyết định hạt nhân tốt nhất nên là gì. Tuy nhiên, một điều chúng tôi chỉ định là kích thước kernel. (Đây được gọi là siêu tham số, ví dụ: 5x5 hoặc 3x3, v.v.).


Giải thích tốt đẹp. Bạn có thể vui lòng trả lời phần đầu tiên của câu hỏi. Về CNN là quy mô / luân chuyển bất biến?
Aadnan Farooq A

1
@AadnanFarooqA Tôi sẽ làm như vậy tối nay.
Tarin Ziyaee

2

Nhiều tác giả bao gồm Geoffrey Hinton (người đề xuất Capsule net) cố gắng giải quyết vấn đề, nhưng về mặt chất lượng. Chúng tôi cố gắng giải quyết vấn đề này một cách định lượng. Bằng cách có tất cả các hạt tích chập đối xứng (đối xứng dih thờ của bậc 8 [Dih4] hoặc đối xứng xoay tăng 90 độ, et al) trong CNN, chúng tôi sẽ cung cấp một nền tảng cho vectơ đầu vào và vectơ kết quả trên mỗi lớp ẩn tích chập đồng bộ với cùng một tính chất đối xứng (ví dụ, đối xứng xoay Dih4 hoặc 90 tăng, et al). Ngoài ra, bằng cách có cùng thuộc tính đối xứng cho mỗi bộ lọc (nghĩa là được kết nối đầy đủ nhưng cân nhắc chia sẻ với cùng một mẫu đối xứng) trên lớp làm phẳng đầu tiên, giá trị kết quả trên mỗi nút sẽ giống nhau về mặt định lượng và dẫn đến vectơ đầu ra CNN giống nhau cũng. Tôi gọi nó là CNN giống hệt biến đổi (hoặc TI-CNN-1). Có các phương pháp khác cũng có thể xây dựng CNN giống hệt biến đổi bằng cách sử dụng đầu vào đối xứng hoặc các hoạt động bên trong CNN (TI-CNN-2). Dựa trên TI-CNN, một CNN giống hệt xoay (GRI-CNN) có thể được xây dựng bởi nhiều TI-CNN với vectơ đầu vào được xoay theo một góc bước nhỏ. Hơn nữa, một CNN giống hệt nhau về mặt định lượng cũng có thể được xây dựng bằng cách kết hợp nhiều GRI-CNN với các vectơ đầu vào được chuyển đổi khác nhau.

  1. "Mạng nơ ron chuyển đổi nhận dạng và bất biến chuyển đổi thông qua các toán tử phần tử đối xứng trên mạng https://arxiv.org/abs/1806.03636 (tháng 6 năm 2018)

  2. Mạng chuyển đổi thần kinh chuyển đổi giống hệt và bất biến bằng cách kết hợp các hoạt động đối xứng hoặc đầu vào vectơ https://arxiv.org/abs/1807.11156 (tháng 7 năm 2018)

  3. "Các hệ thống mạng thần kinh chuyển đổi có thể nhận dạng và bất biến xoay vòng" https://arxiv.org/abs/1808.01280 (tháng 8 năm 2018)


-1

Tôi nghĩ rằng tổng hợp tối đa có thể dự trữ các bất biến chuyển động và quay chỉ cho các bản dịch và phép quay nhỏ hơn kích thước sải chân. Nếu lớn hơn, không có bất biến


1
bạn có thể mở rộng một chút không? Chúng tôi khuyến khích các câu trả lời trên trang web này chi tiết hơn một chút so với điều này (ngay bây giờ, điều này có vẻ nhiều hơn để bình luận). Cảm ơn bạn!
Antoine
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.