Tóm lại, tần suất đề cập đến tốc độ thay đổi. Chính xác hơn, tần số là nghịch đảo của thời kỳ thay đổi, đó là khoảng thời gian cần để chuyển từ một độ sáng (hoặc bất cứ thứ gì) sang độ sáng khác và quay lại. Sau đó thay đổi càng nhanh (ví dụ từ sáng sang tối), "tần số" hình ảnh cần thiết để thể hiện phần đó của hình ảnh càng cao.
Nói cách khác, bạn có thể nghĩ tần số trong một hình ảnh là tốc độ thay đổi. Các phần của hình ảnh thay đổi nhanh chóng từ màu này sang màu khác (ví dụ như các cạnh sắc nét) chứa tần số cao và các phần thay đổi dần (ví dụ: các bề mặt lớn có màu đặc) chỉ chứa tần số thấp.
Khi chúng ta nói về DCT và FFT và các biến đổi tương tự khác, chúng ta thường thực hiện chúng trên một phần của hình ảnh (ví dụ: để nén JPEG, phát hiện cạnh, v.v.). Nó có ý nghĩa nhất để nói về các biến đổi, sau đó, trong bối cảnh của một khối biến đổi có kích thước nhất định.
Hãy tưởng tượng, nếu bạn sẽ, một khối dữ liệu hình ảnh 32 pixel x 32 pixel. (Con số này là tùy ý.) Giả sử rằng hình ảnh là một gradient đơn giản có màu trắng ở bên trái, màu đen ở giữa và màu trắng ở bên phải. Chúng ta sẽ nói rằng tín hiệu này có một khoảng thời gian xấp xỉ một bước sóng trên 32 pixel chiều rộng, bởi vì nó trải qua một chu kỳ hoàn chỉnh từ trắng sang đen sang trắng một lần nữa sau mỗi 32 pixel.
Chúng ta có thể tùy ý gọi tần số này là "1" - 1 chu kỳ trên 32 pixel, nghĩa là. Tôi mơ hồ nhớ lại rằng điều này thường được gọi là trong sách giáo khoa biến đổi, hoặc có thể / 2, nhưng tôi có thể nhớ sai. Dù bằng cách nào, chúng ta sẽ gọi nó là 1 ngay bây giờ, bởi vì điều này thực sự là tùy ý theo nghĩa tuyệt đối; Vấn đề là mối quan hệ giữa các tần số theo nghĩa tương đối. :-)
Giả sử bạn có một hình ảnh thứ hai có màu trắng ở một cạnh, sau đó mờ đi nhanh gấp đôi để nó chuyển từ màu trắng sang màu đen, sang màu trắng, sang màu đen và trở lại màu trắng ở cạnh kia. Sau đó, chúng tôi sẽ gọi tần số đó là "2" vì nó thay đổi gấp đôi so với chiều rộng của khối 32 pixel đó.
Nếu chúng ta muốn tái tạo những hình ảnh đơn giản đó, chúng ta có thể nói rằng mỗi hàng bao gồm một tín hiệu có tần số 1 hoặc 2, và bạn sẽ biết hình ảnh trông như thế nào. Nếu hình ảnh chuyển từ màu đen sang màu xám 50%, bạn có thể làm điều tương tự, nhưng bạn phải nói rằng chúng có tần số 1 hoặc 2 ở cường độ 50%.
Tất nhiên, hình ảnh trong thế giới thực không chỉ là một gradient đơn giản. Hình ảnh thay đổi thường xuyên và không định kỳ khi bạn quét từ trái sang phải. Tuy nhiên, trong một khối đủ nhỏ (ví dụ 8 pixel, 16 pixel), bạn có thể xấp xỉ hàng pixel đó là tổng của một chuỗi tín hiệu, bắt đầu bằng mức trung bình của các giá trị pixel trong hàng, tiếp theo là số lượng của " tín hiệu tần số 0,5 "(màu đen ở một bên, mờ dần thành màu trắng) để hòa trộn (hoặc với một lượng âm, lượng tín hiệu đó sẽ trừ), tiếp theo là tần số 1, tần số 2, tần số 4, v.v. .
Bây giờ một hình ảnh là duy nhất ở chỗ nó có tần số theo cả hai hướng; nó có thể trở nên sáng hơn và tối hơn khi di chuyển cả chiều ngang và chiều dọc. Vì lý do này, chúng tôi sử dụng các biến đổi 2D DCT hoặc FFT thay vì 1D. Nhưng nguyên tắc về cơ bản vẫn giống nhau. Bạn có thể biểu diễn chính xác một hình ảnh 8x8 bằng một lưới 8 x 8 có kích thước tương tự.
Hình ảnh cũng phức tạp hơn vì màu sắc, nhưng bây giờ chúng ta sẽ bỏ qua điều đó và cho rằng chúng ta chỉ nhìn vào một hình ảnh thang độ xám như bạn có thể nhận được bằng cách nhìn vào kênh màu đỏ của một bức ảnh một cách cô lập.
Về cách đọc kết quả của biến đổi, điều đó phụ thuộc vào việc bạn đang xem biến đổi 1D hay biến đổi 2D. Đối với biến đổi 1D, bạn có một loạt các thùng. Đầu tiên là trung bình của tất cả các giá trị đầu vào. Thứ hai là lượng tín hiệu tần số 1 cần thêm, thứ ba là lượng tín hiệu tần số 2 cần thêm, v.v.
Đối với biến đổi 2D, bạn có lưới giá trị n x n . Phía trên bên trái thường là trung bình đó và khi bạn đi theo hướng ngang, mỗi nhóm chứa lượng tín hiệu để trộn với tần số ngang là 1, 2, 4, v.v. và khi bạn đi theo hướng dọc, nó sẽ đi theo hướng dọc là lượng tín hiệu để trộn với tần số dọc là 1, 2, 4, v.v.
Tất nhiên, đó là câu chuyện hoàn chỉnh nếu bạn đang nói về một DCT; ngược lại, mỗi thùng cho một FFT chứa các phần thực và ảo. FFT vẫn dựa trên cùng một ý tưởng cơ bản (loại), ngoại trừ cách tần số được ánh xạ lên các thùng là khác nhau và toán học là hairier. :-)
Tất nhiên, lý do phổ biến nhất để tạo ra các loại biến đổi này là sau đó tiến thêm một bước và ném một số dữ liệu đi. Ví dụ, DCT được sử dụng trong nén JPEG. Bằng cách đọc các giá trị theo mẫu zig-zag bắt đầu bằng phía trên bên trái (trung bình) và di chuyển về phía dưới bên phải, dữ liệu quan trọng nhất (thông tin tần số trung bình và tần số thấp) được ghi lại trước, tiếp theo là dữ liệu tần số cao hơn. Tại một số điểm, về cơ bản, bạn nói "điều này là đủ tốt" và vứt bỏ dữ liệu tần số cao nhất. Điều này về cơ bản làm mịn hình ảnh bằng cách loại bỏ chi tiết tốt của nó, nhưng vẫn cung cấp cho bạn khoảng hình ảnh chính xác.
Và IIRC, FFT đôi khi cũng được sử dụng để phát hiện cạnh, trong đó bạn vứt bỏ tất cả trừ các thành phần tần số cao như một phương tiện để phát hiện các khu vực có độ tương phản cao ở các cạnh sắc nét.
National Cụ có một bài viết hay giải thích điều này bằng hình ảnh. :-)