Sự khác biệt giữa dịch tương đương giữa dịch và dịch bất biến

38

Tôi gặp khó khăn trong việc hiểu sự khác biệt giữa tương đương với dịch thuật và bất biến đối với dịch thuật .

Trong cuốn sách Học sâu . MIT Press, 2016 (I. Goodfellow, A. Courville và Y. Bengio), người ta có thể tìm thấy trên các mạng chập:

[...] hình thức chia sẻ tham số cụ thể làm cho lớp có một thuộc tính được gọi là tương đương để dịch
[...] Việc gộp chung giúp làm cho biểu diễn trở nên gần như bất biến đối với các bản dịch nhỏ của đầu vào

Có sự khác biệt nào giữa chúng hay các thuật ngữ được sử dụng thay thế cho nhau?

neural-network deep-learning convolution

— Aamir
nguồn

2

Vào thời xa xưa của Thống kê, như thời Pitman, bất biến được sử dụng theo nghĩa tương đương.

— Tây An

39

Tương đương và bất biến đôi khi được sử dụng thay thế cho nhau. Như được chỉ ra bởi @ Xi'an , bạn có thể tìm thấy các cách sử dụng trong tài liệu thống kê, ví dụ về các khái niệm của công cụ ước tính bất biến và đặc biệt là công cụ ước tính Pitman .

Tuy nhiên, tôi muốn đề cập rằng sẽ tốt hơn nếu cả hai thuật ngữ được tách biệt , vì tiền tố " in- " trong bất biến là riêng tư (có nghĩa là "không có phương sai"), trong khi " đẳng thức " trong tương đương có nghĩa là "thay đổi trong một tỷ lệ tương tự hoặc tương đương ". Nói cách khác, một người không di chuyển, người kia không .

Chúng ta hãy bắt đầu từ các tính năng hình ảnh đơn giản và giả sử rằng hình ảnh $I$ có $m$ tối đa duy nhất tại vị trí pixel không gian $(x_m,y_m)$ , đây là tính năng phân loại chính. Nói cách khác: một hình ảnh và tất cả các bản dịch của nó là "giống nhau" . Một tính chất thú vị của phân loại là khả năng của họ để phân loại theo cách tương tự một số phiên bản méo mó $I'$ của $I$ , đối với dịch dụ bởi tất cả các vectơ $(u,v)$ .

Giá trị tối đa $m'$ của $I'$ là bất biến : $m'=m$ : giá trị là như nhau. Trong khi vị trí của nó sẽ ở $(x'_m,y'_m)=(x_m-u,y_m-v)$ và là tương đương , có nghĩa là thay đổi "bằng nhau" với biến dạng .

Các công thức chính xác được đưa ra trong toán học cho sự tương đương phụ thuộc vào các đối tượng và các phép biến đổi mà người ta xem xét, vì vậy tôi thích ở đây khái niệm thường được sử dụng nhất trong thực tế (và tôi có thể nhận lỗi từ quan điểm lý thuyết).

Ở đây, các bản dịch (hoặc một số hành động chung chung hơn) có thể được trang bị cấu trúc của nhóm $G$ , $g$ là một toán tử dịch cụ thể. Hàm hoặc tính năng $f$ là bất biến dưới $G$ nếu cho tất cả các hình ảnh trong một lớp và với mọi $g$ ,

f (g (I)) = f (I) .

$f(g(I)) = f(I)\,.$

Nó trở thành equivariant nếu có tồn tại một toán học cấu trúc hoặc hành động (thường là một nhóm) $G'$ phản ánh những biến đổi trong $G$ trong một cách có ý nghĩa . Nói cách khác, chẳng hạn rằng đối với mỗi $g$ , bạn có một một độc đáo $g' \in G'$ mà

f (g (I)) = g^{'} (f (I)) .

$f(g(I)) = g'(f(I))\,.$

Trong ví dụ trên vào nhóm dịch, $g$ và $g'$ đều giống nhau (và do đó $G'=G$ ): một bản dịch nguyên của hình ảnh phản ánh như bản dịch chính xác cùng của địa điểm tối đa.

Một định nghĩa phổ biến khác là:

f (g (I)) = g (f (I)) .

$f(g(I)) = g(f(I))\,.$

Tuy nhiên tôi đã sử dụng khả năng khác nhau $G$ và $G'$ bởi vì đôi khi $f(I)$ và $g(I)$ không nằm trong cùng một tên miền. Ví dụ, điều này xảy ra trong các thống kê đa biến (xem ví dụ: Tính chất tương đương và bất biến của các hàm lượng tử đa biến và các hàm liên quan và vai trò của tiêu chuẩn hóa ). Nhưng ở đây, tính duy nhất của ánh xạ giữa $g$ và $g'$ cho phép quay lại biến đổi ban đầu $g$ .

Thông thường, mọi người sử dụng thuật ngữ bất biến vì khái niệm tương đương là không xác định hoặc mọi người khác sử dụng tính bất biến, và tương đương có vẻ mang tính mô phạm hơn.

Đối với hồ sơ, khái niệm khác có liên quan (đặc biệt. Trong toán học và vật lý) được gọi là hiệp phương sai , contravariance , khác biệt bất biến .

Ngoài ra, bất biến dịch thuật, ít nhất là gần đúng, hoặc trong phong bì, đã là một nhiệm vụ cho một số công cụ xử lý tín hiệu và hình ảnh. Đáng chú ý, các phép biến đổi đa tốc độ (ngân hàng bộ lọc) và đa quy mô (sóng con hoặc kim tự tháp) đã được thiết kế trong 25 năm qua, ví dụ như dưới sự thay đổi của bất biến thay đổi, quay vòng, dừng, phức tạp, cây kép biến đổi wavelet (để đánh giá về wavelet 2D, Toàn cảnh về các biểu diễn hình học đa hình ). Các wavelet có thể hấp thụ một vài biến thể quy mô riêng biệt. Tất cả các luận điểm (gần đúng) thường đi kèm với giá của sự dư thừa về số lượng các hệ số được chuyển đổi. Nhưng họ có nhiều khả năng mang lại các tính năng thay đổi bất biến, hoặc thay đổi tương đương.

— Laurent Duval
nguồn

4

Tuyệt quá! Tôi thực sự ngưỡng mộ nỗ lực của bạn cho câu trả lời chi tiết @Laurent Duval

— Aamir

24

Các điều khoản khác nhau:

Tương đương với dịch thuật có nghĩa là một bản dịch các tính năng đầu vào dẫn đến một bản dịch tương đương của đầu ra. Vì vậy, nếu mẫu 0,3,2,0,0 của bạn cho kết quả đầu vào là 0,1,0,0 ở đầu ra, thì mẫu 0,0,3,2,0 có thể dẫn đến 0,0,1, 0
Bất biến đối với dịch nghĩa là bản dịch các tính năng đầu vào không thay đổi kết quả đầu ra. Vì vậy, nếu mẫu 0,3,2,0,0 của bạn cho kết quả đầu vào là 0,1,0 trong đầu ra, thì mẫu 0,0,3,2,0 cũng sẽ dẫn đến 0,1,0

Để các bản đồ đặc trưng trong các mạng chập là hữu ích, chúng thường cần cả hai thuộc tính trong một số cân bằng. Sự tương đương cho phép mạng lưới tổng quát hóa phát hiện cạnh, kết cấu, hình dạng ở các vị trí khác nhau. Tính bất biến cho phép vị trí chính xác của các tính năng được phát hiện ít quan trọng hơn. Đây là hai loại tổng quát bổ sung cho nhiều tác vụ xử lý ảnh.

— Neil Slater
nguồn

Tính năng dịch mang lại đầu ra được dịch ở một số lớp. Xin hãy giải thích về việc dịch đáng kể toàn bộ đối tượng đang được phát hiện. Có vẻ như nó sẽ được phát hiện ngay cả khi CNN không được đào tạo với hình ảnh chứa các vị trí khác nhau? Có tương đương giữ trong trường hợp này (trông giống với bất biến)?

— VladimirLenin

@VladimirLenin: Tôi không nghĩ rằng việc xây dựng là cần thiết cho câu hỏi này, nó chắc chắn không phải là điều mà OP đã hỏi ở đây. Tôi đề nghị bạn hỏi một câu hỏi riêng, với một ví dụ cụ thể nếu có thể. Ngay cả khi trực quan một "toàn bộ đối tượng" đã được dịch, điều đó không có nghĩa là các bản đồ đặc trưng trong CNN đang theo dõi điều tương tự như bạn mong đợi.

— Neil Slater

4

Chỉ cần thêm 2 xu của tôi

$f : I \rightarrow L$ $I$ $L$

$f : I \rightarrow \mathcal{L}$
$f : \mathcal{L} \rightarrow L$

và nó được thực hiện bằng các thuộc tính sau

tương đương không gian, liên quan đến ConvLayer (Chuyển đổi 2D không gian + NonLin, ví dụ ReLU) như một sự thay đổi trong Đầu vào lớp tạo ra một sự thay đổi trong Đầu ra lớp (Lưu ý: đó là về Lớp, không phải là Toán tử chuyển đổi đơn)
tính bất biến không gian, liên quan đến Toán tử gộp (ví dụ: Max Pooling vượt qua giá trị tối đa trong trường tiếp nhận của nó bất kể vị trí không gian của nó)

$I$

$\mathcal{L}$

Việc sử dụng các lớp được kết nối đầy đủ trong frontend làm cho trình phân loại nhạy cảm với vị trí tính năng ở một mức độ nào đó, tùy thuộc vào cấu trúc phụ trợ: nó càng sâu và càng nhiều toán tử bất biến dịch (Pooling) được sử dụng

Nó đã được thể hiện trong Định lượng dịch thuật - Tính bất biến trong Mạng nơ ron kết hợp để cải thiện tính bất biến dịch thuật phân loại CNN, thay vì hành động theo xu hướng quy nạp (kiến trúc do đó độ sâu, gộp chung, hiệu quả) để hành động theo xu hướng dữ liệu (tăng dữ liệu )

— Nicola Bernini
nguồn