Ý nghĩa của công thức đó thực sự khá đơn giản. Hãy tưởng tượng bạn chụp hai vùng nhỏ có cùng kích thước của một hình ảnh, một màu xanh và một màu đỏ:
Hàm cửa sổ bằng 0 bên ngoài hình chữ nhật màu đỏ (để đơn giản, chúng ta có thể giả sử cửa sổ đơn giản là không đổi trong hình chữ nhật màu đỏ). Vì vậy, chức năng cửa sổ chọn những pixel bạn muốn xem và gán trọng số tương đối cho từng pixel. (Phổ biến nhất là cửa sổ Gaussian, vì nó đối xứng xoay, hiệu quả để tính toán và nhấn mạnh các pixel ở gần trung tâm của cửa sổ.) Hình chữ nhật màu xanh được dịch chuyển bởi (u, v).
Tiếp theo, bạn tính tổng hiệu số bình phương giữa các phần hình ảnh được đánh dấu màu đỏ và màu xanh lam, tức là bạn trừ đi pixel của chúng theo pixel, bình phương độ chênh lệch và tổng hợp kết quả (giả sử, để đơn giản rằng cửa sổ = 1 trong khu vực chúng ta đang tìm kiếm tại). Điều này cung cấp cho bạn một số cho mọi khả năng (u, v) -> E (u, v).
Hãy xem điều gì xảy ra nếu chúng ta tính toán cho các giá trị khác nhau của u / v:
Đầu tiên giữ v = 0:
Điều này không có gì đáng ngạc nhiên: Sự khác biệt giữa các phần hình ảnh là thấp nhất khi độ lệch (u, v) giữa chúng là 0. Khi bạn tăng khoảng cách giữa hai miếng vá, tổng chênh lệch bình phương cũng tăng.
Giữ u = 0:
Cốt truyện trông tương tự nhau, nhưng tổng số khác biệt bình phương giữa hai phần hình ảnh nhỏ hơn rất nhiều khi bạn dịch chuyển hình chữ nhật màu xanh theo hướng của cạnh.
Một cốt truyện đầy đủ của E (u, v) trông như thế này:
Cốt truyện trông hơi giống một "hẻm núi": Chỉ có một sự khác biệt nhỏ nếu bạn dịch chuyển hình ảnh theo hướng của hẻm núi. Đó là bởi vì bản vá hình ảnh này có hướng chủ đạo (dọc).
Chúng tôi có thể làm tương tự cho một bản vá hình ảnh khác nhau:
Ở đây, cốt truyện của E (u, v) trông khác nhau:
Bất kể bạn thay đổi miếng vá theo cách nào, nó luôn trông khác biệt.
Vì vậy, hình dạng của hàm E (u, v) cho chúng ta biết điều gì đó về bản vá hình ảnh
- nếu E (u, v) gần 0 ở mọi nơi, không có kết cấu nào trong bản vá hình ảnh bạn đang xem
- nếu E (u, v) là "hình hẻm núi", bản vá có hướng chủ đạo (đây có thể là cạnh hoặc kết cấu)
- nếu E (u, v) là "hình nón", miếng vá có kết cấu, nhưng không có hướng chủ đạo. Đó là loại miếng vá mà máy dò góc đang tìm kiếm.
Nhiều tài liệu tham khảo nói rằng đó là độ lớn mà cửa sổ 'w' dịch chuyển ... vậy cửa sổ bị dịch chuyển bao nhiêu? Một pixel ... hai pixel?
Thông thường, bạn không tính E (u, v). Bạn chỉ quan tâm đến hình dạng của nó trong vùng lân cận của (u, v) = (0,0). Vì vậy, bạn chỉ muốn bản mở rộng Taylor của E (u, v) gần (0,0), mô tả hoàn toàn "hình dạng" của nó.
Là tổng kết trên các vị trí pixel được bao phủ bởi cửa sổ?
Về mặt toán học, sẽ thanh lịch hơn khi để phạm vi tổng trên tất cả các pixel. Thực tế mà nói, không có điểm nào trong việc tính tổng các pixel trong đó cửa sổ bằng 0.