Bạn đang đi đúng hướng.
Bất biến có nghĩa là bạn có thể nhận ra một đối tượng là một đối tượng, ngay cả khi sự xuất hiện của nó thay đổi theo một cách nào đó. Điều này nói chung là một điều tốt, bởi vì nó bảo tồn danh tính, danh mục, (v.v.) của đối tượng qua các thay đổi về chi tiết cụ thể của đầu vào hình ảnh, như vị trí tương đối của người xem / máy ảnh và đối tượng.
Hình ảnh dưới đây chứa nhiều góc nhìn của cùng một bức tượng. Bạn (và các mạng thần kinh được đào tạo tốt) có thể nhận ra rằng cùng một đối tượng xuất hiện trong mọi ảnh, mặc dù các giá trị pixel thực tế khá khác nhau.
Lưu ý rằng dịch thuật ở đây có một ý nghĩa cụ thể trong tầm nhìn, mượn từ hình học. Nó không đề cập đến bất kỳ loại chuyển đổi nào, không giống như nói, một bản dịch từ tiếng Pháp sang tiếng Anh hoặc giữa các định dạng tệp. Thay vào đó, điều đó có nghĩa là mỗi điểm / pixel trong ảnh đã được di chuyển cùng một lượng theo cùng một hướng. Thay phiên, bạn có thể nghĩ về nguồn gốc như đã được thay đổi một lượng bằng nhau theo hướng ngược lại. Ví dụ: chúng ta có thể tạo hình ảnh thứ 2 và thứ 3 ở hàng đầu tiên từ hàng đầu tiên bằng cách di chuyển từng pixel 50 hoặc 100 pixel sang phải.
Người ta có thể chỉ ra rằng toán tử tích chập bắt đầu liên quan đến dịch thuật. Nếu bạn kết hợp với , sẽ không có vấn đề gì nếu bạn dịch đầu ra được tích hợp hoặc nếu bạn dịch hoặc trước, sau đó kết hợp chúng. Wikipedia có thêm một
chút .
fgf∗ gfg
Một cách tiếp cận để nhận dạng đối tượng dịch bất biến là lấy một "khuôn mẫu" của đối tượng và kết hợp nó với mọi vị trí có thể có của đối tượng trong ảnh. Nếu bạn nhận được phản hồi lớn tại một vị trí, điều đó cho thấy rằng một đối tượng giống với mẫu được đặt tại vị trí đó. Cách tiếp cận này thường được gọi là khớp mẫu .
Bất biến so với tương đương
Câu trả lời của Santanu_Pattanayak ( ở đây ) chỉ ra rằng có một sự khác biệt giữa bất biến dịch thuật và tương đương dịch thuật . Tính bất biến dịch nghĩa là hệ thống tạo ra chính xác cùng một phản hồi, bất kể đầu vào của nó được dịch chuyển như thế nào. Ví dụ: máy dò tìm khuôn mặt có thể báo cáo "FACE FOUND" cho cả ba hình ảnh ở hàng trên cùng. Tương đương có nghĩa là hệ thống hoạt động tốt như nhau trên các vị trí, nhưng phản ứng của nó thay đổi theo vị trí của mục tiêu. Ví dụ, bản đồ nhiệt của "khuôn mặt" sẽ có các vết tương tự ở bên trái, giữa và phải khi nó xử lý hàng ảnh đầu tiên.
Điều này đôi khi là một sự khác biệt quan trọng, nhưng nhiều người gọi cả hai hiện tượng là "bất biến", đặc biệt vì việc chuyển đổi một phản ứng tương đương thành một bất biến - thường không quan tâm đến tất cả các thông tin vị trí).