Hoạt động tích chập, nói một cách đơn giản, là sự kết hợp giữa sản phẩm nguyên tố của hai ma trận. Miễn là hai ma trận này đồng ý về kích thước, sẽ không có vấn đề gì và vì vậy tôi có thể hiểu động cơ đằng sau truy vấn của bạn.
A.1. Tuy nhiên, mục đích của tích chập là mã hóa ma trận dữ liệu nguồn (toàn bộ hình ảnh) theo bộ lọc hoặc hạt nhân. Cụ thể hơn, chúng tôi đang cố gắng mã hóa các pixel trong vùng lân cận của các pixel neo / nguồn. Hãy nhìn vào hình dưới đây:
Thông thường, chúng tôi coi mọi pixel của hình ảnh nguồn là neo / pixel nguồn, nhưng chúng tôi không bị hạn chế để làm điều này. Trong thực tế, không có gì lạ khi bao gồm một sải chân, trong đó chúng ta neo / pixel nguồn được phân tách bằng một số pixel cụ thể.
Được rồi, vậy pixel nguồn là gì? Đó là điểm neo mà hạt nhân được căn giữa và chúng tôi đang mã hóa tất cả các pixel lân cận, bao gồm cả pixel neo / pixel nguồn. Vì, hạt nhân có hình dạng đối xứng (không đối xứng trong các giá trị hạt nhân), nên có số lượng (n) pixel bằng nhau trên tất cả các mặt (4 kết nối) của pixel neo. Do đó, dù số pixel này có thể là bao nhiêu thì độ dài của mỗi cạnh của hạt nhân có hình dạng đối xứng của chúng tôi là 2 * n + 1 (mỗi cạnh của neo + pixel neo) và do đó, bộ lọc / hạt nhân luôn có kích thước lẻ.
Điều gì xảy ra nếu chúng ta quyết định phá vỡ 'truyền thống' và sử dụng hạt nhân không đối xứng? Bạn sẽ phải chịu các lỗi răng cưa và vì vậy chúng tôi không làm điều đó. Chúng tôi coi pixel là thực thể nhỏ nhất, tức là không có khái niệm pixel phụ ở đây.
A.2 Vấn đề ranh giới được xử lý bằng các phương pháp khác nhau: một số bỏ qua nó, một số không đệm, một số gương phản ánh nó. Nếu bạn sẽ không tính toán một thao tác nghịch đảo, tức là giải mã và không quan tâm đến việc tái cấu trúc hoàn hảo hình ảnh gốc, thì bạn không quan tâm đến việc mất thông tin hoặc bị nhiễu do vấn đề ranh giới. Thông thường, hoạt động gộp (gộp chung hoặc gộp tối đa) sẽ loại bỏ các tạo phẩm ranh giới của bạn bằng mọi cách. Vì vậy, hãy bỏ qua một phần của 'trường nhập' của bạn, thao tác gộp của bạn sẽ làm như vậy cho bạn.
-
Zen của chập chững:
Trong miền xử lý tín hiệu trường học cũ, khi tín hiệu đầu vào được tích hợp hoặc truyền qua bộ lọc, không có cách nào để đánh giá trước - thành phần nào của phản hồi được tích hợp / lọc có liên quan / thông tin nào không. Do đó, mục đích là để bảo tồn các thành phần tín hiệu (tất cả của nó) trong các biến đổi này.
Các thành phần tín hiệu là thông tin. Một số thành phần có nhiều thông tin hơn những thành phần khác. Lý do duy nhất cho việc này là chúng tôi quan tâm đến việc trích xuất thông tin cấp cao hơn; Thông tin thích hợp đối với một số lớp ngữ nghĩa. Theo đó, những thành phần tín hiệu không cung cấp thông tin mà chúng tôi đặc biệt quan tâm có thể được cắt bỏ. Do đó, không giống như những giáo điều của trường học cũ về tích chập / lọc, chúng tôi có thể tự do gộp / cắt tỉa phản ứng tích chập như chúng tôi cảm thấy. Cách chúng tôi cảm thấy như vậy là loại bỏ nghiêm ngặt tất cả các thành phần dữ liệu không góp phần cải thiện mô hình thống kê của chúng tôi.