Tần số của người Ý có nghĩa là gì trong một hình ảnh?


29

Tôi không hiểu làm thế nào tần số được xác định trong hình ảnh / hình ảnh. Theo như tôi hiểu bây giờ, tần số cao giống như những thứ sắc nét trong hình ảnh, như các cạnh hay như vậy, và tần số thấp là loại ngược lại?

Tôi cũng muốn hiểu kết quả của Biến đổi Fourier rời rạc, như làm thế nào để đọc chúng đúng cách.

Thật tuyệt nếu ai đó có thể giải thích cho tôi như sau:

  1. Tần số trong hình ảnh là gì và chúng được định nghĩa như thế nào?

  2. Làm thế nào để bạn đọc kết quả của một chuyển đổi Fourier rời rạc?



cảm ơn, tôi đã đọc nó, nó đã giúp tôi, nhưng tôi vẫn hơi khó hiểu.
Jakob Abfalter

Câu trả lời:


44

Tôi sẽ chỉ trả lời câu hỏi đầu tiên: tần số trong hình ảnh là gì?

Biến đổi Fourier là một kỹ thuật toán học trong đó thông tin hình ảnh tương tự được thể hiện không phải cho từng pixel riêng biệt mà là cho từng tần số. Hãy suy nghĩ về nó theo cách này. Biển có sóng một số trong đó di chuyển rất chậm (như thủy triều), một số khác có kích thước trung bình và một số khác thì nhỏ như những gợn sóng hình thành từ một cơn gió. Bạn có thể nghĩ về chúng như ba sóng riêng biệt nhưng tại mỗi điểm trên mặt biển và trong một khoảnh khắc, bạn chỉ nhận được một độ cao của nước.

Điều tương tự áp dụng cho hình ảnh. Bạn có thể nghĩ về hình ảnh được tạo thành từ nhiều sóng hoặc tần số khác nhau. Để tạo hình ảnh của bạn, hãy bắt đầu với màu trung bình (thực sự nghĩ về hình ảnh tỷ lệ xám sẽ dễ dàng hơn). Sau đó thêm các sóng có độ dài và cường độ sóng khác nhau để từ từ xây dựng các chi tiết trong ảnh.

Nguồn hình ảnh:

Nguồn hình ảnh

Tần số đầu tiên (Trung bình):

Trung bình cộng

Tần số thứ hai dọc theo chiều dọc là một sóng bắt đầu từ 0 ở dưới cùng của hình ảnh, tăng dần, trở thành số 0 dọc theo đường chân trời ở giữa và giảm xuống dưới 0 để cuối cùng trở thành số 0 ở trên cùng của hình ảnh. (Tôi đã mô tả Sê-ri Fourier không có dịch pha, nhưng sự tương tự vẫn giữ.)

Ở đây bạn có thể thấy tần số thứ hai dọc và ngang. Lưu ý rằng bạn có thể nhận ra nơi ngọn núi sẽ (tối) và nơi bầu trời và hồ sẽ (sáng hơn).

Tần số thứ hai:

Thành phần đầu tiên

Mỗi sóng hoặc tần số bổ sung mang lại nhiều gợn sóng hơn và như vậy, chi tiết hơn. Để có được các hình ảnh khác nhau, chiều cao / biên độ sóng có thể được thay đổi cũng như điểm bắt đầu của sóng, còn được gọi là Pha.

Tần số thứ ba:

Ngày thứ ba

Thật thú vị, lượng thông tin là như nhau trong đại diện này và người ta có thể qua lại giữa các hình ảnh bình thường (miền không gian) và hình ảnh được chuyển đổi Fourier (miền tần số). Trong miền tần số, chúng ta cần giữ thông tin của tất cả các tần số cùng với thông tin về biên độ và pha.

Ở đây nó sử dụng 50% tần số:

50%

Có nhiều biến thể của tất cả những điều này, với sự khác biệt được tạo ra giữa Dòng Fourier, Biến đổi Fourier và Biến đổi Fourier rời rạc và Biến đổi Cosine rời rạc (DCT).

Một ứng dụng thú vị là sử dụng các thuật toán nén như JPEG. Ở đây DCT được sử dụng để lưu nhiều hơn các phần quan trọng của hình ảnh (tần số thấp) và ít tần số cao hơn.

Tôi đã viết điều này với hy vọng rằng những người đọc mới làm quen có thể hiểu được cơ bản về ý tưởng của Fourier Transforms. Vì vậy, tôi đã thực hiện một số đơn giản hóa mà tôi hy vọng những độc giả cao cấp hơn sẽ tha thứ cho tôi.

Hoạt hình

Video được tạo bởi Thomas Devoogdt có thể được xem tại Vimeo .

hoạt hình


Thường xuyên xử lý hậu kỳ

Có rất nhiều phương pháp dựa vào tần số để xử lý bài, chủ yếu là vì chúng tôi không bao giờ nhìn vào từng pixel riêng lẻ. Nhiều thuật toán hoạt động trên tần số vì sẽ tự nhiên hơn khi nghĩ về chúng theo cách này. Nhưng cũng bởi vì Biến đổi Fourier chứa cùng một thông tin, chúng ta có thể diễn tả bất kỳ hoạt động toán học nào (hoặc bước xử lý bài) trong tần số và các miền không gian! Đôi khi mô tả pixel-khôn ngoan là tốt hơn nhưng thường mô tả tần số tốt hơn. (Tốt hơn chủ yếu có nghĩa là nhanh hơn trong bối cảnh này.)

Một kỹ thuật tôi muốn chỉ ra không có lý do cụ thể nào ngoại trừ đó là các nghệ sĩ làm việc trực tiếp với tần số và đó là * tách tần số *. Tôi sẽ không mô tả nó nhưng bạn có thể thấy nó hoạt động như thế nào trên YouTube cho cả Photoshop và GIMP.

Bạn tạo hai lớp một với tần số thấp và một lớp có tần số cao. Đối với ảnh chân dung, bạn có thể làm mịn da ở tần số cao mà không ảnh hưởng đến tông màu da ở tần số thấp.

Đây là một số mã để tạo ra các ví dụ trên. Nó có thể được chạy như một chương trình Python đơn giản.

from PIL import Image
from numpy.fft import rfft2, irfft2
import numpy as np

def save_dims(ft, low, high, name):
    ft2 = np.zeros_like(ft)
    # copy the frequencies from low to high but all others stay zero.
    ft2[low:high, low:high] = ft[low:high, low:high]
    save(ft2, name)

def save(ft, name):
    rft = irfft2(ft)
    img = Image.fromarray(rft)
    img = img.convert('L')
    img.save(name)

def main():
    # Convert input into grayscale and save.
    img = Image.open("input.jpg")
    img = img.convert('L')
    img.save('input_gray.png')
    # Do Fourier Transform on image.
    ft = rfft2(img)
    # Take only zeroth frequency and do Inverse FT and save.
    save_dims(ft, 0, 1, 'output_0.png')
    # Take first two frequencies in both directions.
    save_dims(ft, 0, 2, 'output_1.png')
    save_dims(ft, 0, 3, 'output_2.png')
    # Take first 50% of frequencies.
    x = min(ft.shape)
    save_dims(ft, 0, x/2, 'output_50p.png')

def generateGif():
    ''' Generates images to be later converted to a gif.
    This requires ImageMagick:
    convert -delay 100 -loop 0 output_*.png animation.gif
    '''
    # Requires images2gif from code.google.com/p/visvis/source/browse/vvmovie/images2gif.py 
    # from images2gif import writeGif

    img = Image.open('input.jpg')
    img = img.convert('L')
    # Resize image before any calculation.
    size = (640,480)
    img.thumbnail(size, Image.ANTIALIAS)
    ft = rfft2(img)

    images = []
    for x in range(0, max(ft.shape)):
        ft2 = np.zeros_like(ft)
        ft2[0:x, 0:x] = ft[0:x,0:x]
        rft = irfft2(ft2)
        img_out = Image.fromarray(rft).convert('L')
        fname = 'animation/output_%05d.jpg' %(x, )
        img_out.save(fname, quality=60, optimize=True)

    #writeGif('animation.gif', images, duration=0.2)


if __name__=='__main__':
    main()
    #generateGif()

Cần phải làm rõ rằng, về mặt lý thuyết chúng ta có thể, giả sử rằng chúng ta có kiến ​​thức vô hạn về hình ảnh trong tay, phân tách nó thành tần số thành phần và tái tạo nó mà không mất ... trong thế giới thực, chúng ta không thể. Sự kết hợp của một hình ảnh thế giới thực, xảy ra ở mỗi và mọi "giao diện" dọc theo đường ống quang, thực sự là một quá trình không thể đảo ngược. Chúng ta không bao giờ có thể biết tất cả các yếu tố tích chập, và do đó việc tái cấu trúc FFT trở lại thành một hình ảnh là khó khăn và các sửa đổi cực đoan thường dẫn đến hiện vật và mất dữ liệu.
jrista

@jrista Tôi nghĩ rằng điểm mà Unapiedra đang thực hiện về khả năng đảo ngược là khi bạn đang làm việc với một hình ảnh kỹ thuật số (một mảng pixel trên máy tính), bạn có thể đi đến không gian tần số và quay lại, và có được hình ảnh giống như bạn đã bắt đầu. Bạn đang nhìn vào một bức tranh lớn hơn về hệ thống hình ảnh vật lý (ống kính và những thứ tương tự), nơi những hạn chế trong thế giới thực xâm nhập.
coneslayer

3
Nhận xét của jrista là sai lệch trong đó FT bị đổ lỗi cho mất thông tin. Tất nhiên, nhiếp ảnh là một quá trình mất mát và xử lý hậu kỳ cũng vậy. Nếu tôi chuyển đổi một hình ảnh rời rạc sang Fourier Space, thực hiện một số xử lý mất mát ở đó, và sau đó chuyển đổi trở lại, tất nhiên tôi sẽ mất thông tin. Nhưng nó xảy ra trong bước xử lý chứ không phải trong bước chuyển đổi. Đúng, vì độ chính xác của máy, mọi thao tác toán học đều mất thông tin nhưng nếu chúng ta đang nói về 8 bit cho mỗi hình ảnh kênh, chúng tôi sẽ không nhận thấy lỗi chính xác của máy.
Unapiedra

1
@Turkeyphant, tôi không nhớ tại sao tôi lại đề cập đến đường chéo trong bối cảnh đó. Bạn có thể thấy rằng hướng chính của tần số thứ hai dường như là đường chéo cụ thể đó. Có lẽ đó là lý do. Để trả lời câu hỏi của bạn, bạn chỉ cần hai trục để thể hiện hình ảnh 2D. Điều quan trọng là hai trục là trực giao. Trục ngang và trục hoàn thành tiêu chí đó. (Ngoài ra chúng là thực tế.) Với các hình ảnh rời rạc (nghĩa là bao gồm các pixel), việc khử răng cưa sẽ làm cho tất cả các góc khác trở nên tồi tệ hơn.
Unapiedra

1
@Turkeyphant hiệu chỉnh, Unapiedra đã mô tả tần số thứ hai , không phải tần số thứ nhất, như 0, -1, 0, +1, 0. Các đoạn mô tả tần số thứ 2 ngay sau hình ảnh tần số 1 (hình ảnh màu xám đồng nhất) và tôi có thể xem làm thế nào có thể hấp dẫn khi đọc đoạn đó như là một mô tả của hình ảnh trước đó (bài viết thường hiển thị một hình ảnh, sau đó mô tả nó trong văn bản sau hình ảnh), nhưng không phải trong trường hợp này. =)
scottbb

8

Tôi sẽ cố gắng giải thích với các thuật ngữ toán học đơn giản nhất có thể. Nếu bạn muốn bỏ qua môn toán, hãy chuyển sang phần II, nếu bạn muốn có câu trả lời ngắn, hãy bỏ qua Phần III

Phần I

Tần số của tín hiệu có nghĩa là số lần xuất hiện của một sự kiện lặp lại trên một đơn vị thời gian. Vì vậy, nếu đơn vị thời gian là giây thì tần số được đo bằng Herz: 1Hz = 1 / s. Vì vậy, một tín hiệu với 100Hz, có một mẫu lặp lại 100 lần mỗi giây.

Tín hiệu cơ bản nhất (theo quan điểm xử lý tín hiệu) là tín hiệu xoang.

y (t) = sin (2πft)

Trong đó f là tần số của tín hiệu xoang này và t là thời gian. Nếu tín hiệu này là âm thanh và f ở khoảng 50Hz, bạn sẽ nghe thấy một âm bass rất thấp. với tần số cao hơn như 15kHz, nó sẽ là âm cao hơn.

Bây giờ để khái quát khái niệm, tín hiệu có thể là tín hiệu không gian, thay vì tín hiệu tạm thời ... như thể bạn vẽ sóng xoang trên một tờ giấy, với trục gọi là x chỉ về bên phải và trục y vuông góc đến trục x.

y (x) = sin (2πfx)

Trong đó f là tần số của tín hiệu và x là biến không gian. f ở đây không được đo bằng 1 / s nữa mà là 1 / (đơn vị không gian).

Fourier một nhà toán học người Pháp đã chỉ ra rằng bạn có thể tạo ra bất kỳ tín hiệu nào bằng cách thêm một số tín hiệu sin và cosin với biên độ và tần số khác nhau. Đó được gọi là Phân tích Fourier.

Sử dụng phân tích Fourier, có thể viết bất kỳ hàm y (x) nào dưới dạng tổng của các tín hiệu sin và cosin với các tần số khác nhau, do đó, một hàm y (x) có thể được viết lại theo một số hàm liên quan đến tần số Y (f). Người ta có thể nói rằng y (x) = Một số hàm (Y (f)). hoặc Y (f) = Reverse_of_Some_Function (y (x))

Biến đổi Fourier là hàm F biến đổi tín hiệu từ miền x sang miền tần số.

Y(f) = F( y(x) )

y(x) = F_inv(Y(f))

F là một hàm tương tự, DFT Biến đổi Fourier rời rạc là phép tính gần đúng bằng số của F. Biến đổi Fourier nhanh FFT là một cách để DFT được tối ưu hóa cho tốc độ.

Đồng ý...

Phần II

Bây giờ hình ảnh máy tính được tạo thành từ pixel và mỗi pixel có giá trị cường độ cho các giá trị Red, Green, Blue aka RGB. Trong ảnh thang độ xám, cường độ cho R, G, B của bất kỳ pixel nào đều bằng nhau, R = G = B = I để chúng ta có thể nói về I cho ảnh thang độ xám.

Ảnh thang độ xám 800px X 100px bên dưới được tạo bằng I (x) = sin (2πfx) trong đó f = 1 lặp lại / 800px = 0,00125 lặp lại / px

nhập mô tả hình ảnh ở đây

Bạn có thể tự tạo nó bằng Python3

from PIL import Image, ImageDraw
from math import sin, pi

img = Image.new('RGB', (800,100), color='black')
draw = ImageDraw.draw(img)

#cacluate the frequency
n = 10 #repetitions
f = n/img.width #

#iterate of the width pixels
for x in range(img.width):
 #calculate the intensity i in that pixel x
 y = sin(2*pi*f*x - pi/2) #this will generate values between -1 and +1, -pi/2 is to make sure that i starts with value 0 in the next line.
 i = (255+255*y)/2 #shifting and scaling y so that the values are between 0 and 255
 draw.line((i,0,i,img.height), fill=(int(i),int(i),int(i)))

img.show()

Ảnh thang độ xám 800px X 100px bên dưới được tạo bằng I (x) = sin (2πfx) trong đó f = 10repetitions / 800px = 0.0125 lặp lại / px

nhập mô tả hình ảnh ở đây

Bây giờ thật dễ dàng để thấy rằng hình ảnh này có tần số nằm ngang là 10. Hãy tăng tần số lên 10 lần, sao cho n = 100. f = 100/800 = 1/8 = 0.125 lần lặp lại / px:

nhập mô tả hình ảnh ở đây

Như đã đề cập trước đó, bạn có thể biểu thị bất kỳ tín hiệu nào (hình ảnh thang độ xám 1D) dưới dạng một chuỗi các tín hiệu hình sin (hình ảnh sin 1D thang độ xám) với các tần số khác nhau.

Phần III

Vì vậy, hình ảnh thang độ xám 1D A có tần số cao hơn hình ảnh thang độ xám B khác nếu A có chi tiết "mịn" hơn.

Bạn có thể khái quát nguyên tắc đó thành hình ảnh 2D và thậm chí 3D màu. "Chi tiết" của hình ảnh càng mịn thì nội dung tần số của hình ảnh đó càng cao.

Vì vậy, một bầu trời xanh có tần số thấp so với hình ảnh của một bông hoa.

Bạn có thể tìm hiểu thêm về điều này bằng cách đọc về Phân tích Fourier và về Xử lý hình ảnh kỹ thuật số.


4

Tóm lại, tần suất đề cập đến tốc độ thay đổi. Chính xác hơn, tần số là nghịch đảo của thời kỳ thay đổi, đó là khoảng thời gian cần để chuyển từ một độ sáng (hoặc bất cứ thứ gì) sang độ sáng khác và quay lại. Sau đó thay đổi càng nhanh (ví dụ từ sáng sang tối), "tần số" hình ảnh cần thiết để thể hiện phần đó của hình ảnh càng cao.

Nói cách khác, bạn có thể nghĩ tần số trong một hình ảnh là tốc độ thay đổi. Các phần của hình ảnh thay đổi nhanh chóng từ màu này sang màu khác (ví dụ như các cạnh sắc nét) chứa tần số cao và các phần thay đổi dần (ví dụ: các bề mặt lớn có màu đặc) chỉ chứa tần số thấp.

Khi chúng ta nói về DCT và FFT và các biến đổi tương tự khác, chúng ta thường thực hiện chúng trên một phần của hình ảnh (ví dụ: để nén JPEG, phát hiện cạnh, v.v.). Nó có ý nghĩa nhất để nói về các biến đổi, sau đó, trong bối cảnh của một khối biến đổi có kích thước nhất định.

Hãy tưởng tượng, nếu bạn sẽ, một khối dữ liệu hình ảnh 32 pixel x 32 pixel. (Con số này là tùy ý.) Giả sử rằng hình ảnh là một gradient đơn giản có màu trắng ở bên trái, màu đen ở giữa và màu trắng ở bên phải. Chúng ta sẽ nói rằng tín hiệu này có một khoảng thời gian xấp xỉ một bước sóng trên 32 pixel chiều rộng, bởi vì nó trải qua một chu kỳ hoàn chỉnh từ trắng sang đen sang trắng một lần nữa sau mỗi 32 pixel.

Chúng ta có thể tùy ý gọi tần số này là "1" - 1 chu kỳ trên 32 pixel, nghĩa là. Tôi mơ hồ nhớ lại rằng điều này thường được gọi là trong sách giáo khoa biến đổi, hoặc có thể / 2, nhưng tôi có thể nhớ sai. Dù bằng cách nào, chúng ta sẽ gọi nó là 1 ngay bây giờ, bởi vì điều này thực sự là tùy ý theo nghĩa tuyệt đối; Vấn đề là mối quan hệ giữa các tần số theo nghĩa tương đối. :-)

Giả sử bạn có một hình ảnh thứ hai có màu trắng ở một cạnh, sau đó mờ đi nhanh gấp đôi để nó chuyển từ màu trắng sang màu đen, sang màu trắng, sang màu đen và trở lại màu trắng ở cạnh kia. Sau đó, chúng tôi sẽ gọi tần số đó là "2" vì nó thay đổi gấp đôi so với chiều rộng của khối 32 pixel đó.

Nếu chúng ta muốn tái tạo những hình ảnh đơn giản đó, chúng ta có thể nói rằng mỗi hàng bao gồm một tín hiệu có tần số 1 hoặc 2, và bạn sẽ biết hình ảnh trông như thế nào. Nếu hình ảnh chuyển từ màu đen sang màu xám 50%, bạn có thể làm điều tương tự, nhưng bạn phải nói rằng chúng có tần số 1 hoặc 2 ở cường độ 50%.

Tất nhiên, hình ảnh trong thế giới thực không chỉ là một gradient đơn giản. Hình ảnh thay đổi thường xuyên và không định kỳ khi bạn quét từ trái sang phải. Tuy nhiên, trong một khối đủ nhỏ (ví dụ 8 pixel, 16 pixel), bạn có thể xấp xỉ hàng pixel đó là tổng của một chuỗi tín hiệu, bắt đầu bằng mức trung bình của các giá trị pixel trong hàng, tiếp theo là số lượng của " tín hiệu tần số 0,5 "(màu đen ở một bên, mờ dần thành màu trắng) để hòa trộn (hoặc với một lượng âm, lượng tín hiệu đó sẽ trừ), tiếp theo là tần số 1, tần số 2, tần số 4, v.v. .

Bây giờ một hình ảnh là duy nhất ở chỗ nó có tần số theo cả hai hướng; nó có thể trở nên sáng hơn và tối hơn khi di chuyển cả chiều ngang và chiều dọc. Vì lý do này, chúng tôi sử dụng các biến đổi 2D DCT hoặc FFT thay vì 1D. Nhưng nguyên tắc về cơ bản vẫn giống nhau. Bạn có thể biểu diễn chính xác một hình ảnh 8x8 bằng một lưới 8 x 8 có kích thước tương tự.

Hình ảnh cũng phức tạp hơn vì màu sắc, nhưng bây giờ chúng ta sẽ bỏ qua điều đó và cho rằng chúng ta chỉ nhìn vào một hình ảnh thang độ xám như bạn có thể nhận được bằng cách nhìn vào kênh màu đỏ của một bức ảnh một cách cô lập.

Về cách đọc kết quả của biến đổi, điều đó phụ thuộc vào việc bạn đang xem biến đổi 1D hay biến đổi 2D. Đối với biến đổi 1D, bạn có một loạt các thùng. Đầu tiên là trung bình của tất cả các giá trị đầu vào. Thứ hai là lượng tín hiệu tần số 1 cần thêm, thứ ba là lượng tín hiệu tần số 2 cần thêm, v.v.

Đối với biến đổi 2D, bạn có lưới giá trị n x n . Phía trên bên trái thường là trung bình đó và khi bạn đi theo hướng ngang, mỗi nhóm chứa lượng tín hiệu để trộn với tần số ngang là 1, 2, 4, v.v. và khi bạn đi theo hướng dọc, nó sẽ đi theo hướng dọc là lượng tín hiệu để trộn với tần số dọc là 1, 2, 4, v.v.

Tất nhiên, đó là câu chuyện hoàn chỉnh nếu bạn đang nói về một DCT; ngược lại, mỗi thùng cho một FFT chứa các phần thực và ảo. FFT vẫn dựa trên cùng một ý tưởng cơ bản (loại), ngoại trừ cách tần số được ánh xạ lên các thùng là khác nhau và toán học là hairier. :-)

Tất nhiên, lý do phổ biến nhất để tạo ra các loại biến đổi này là sau đó tiến thêm một bước và ném một số dữ liệu đi. Ví dụ, DCT được sử dụng trong nén JPEG. Bằng cách đọc các giá trị theo mẫu zig-zag bắt đầu bằng phía trên bên trái (trung bình) và di chuyển về phía dưới bên phải, dữ liệu quan trọng nhất (thông tin tần số trung bình và tần số thấp) được ghi lại trước, tiếp theo là dữ liệu tần số cao hơn. Tại một số điểm, về cơ bản, bạn nói "điều này là đủ tốt" và vứt bỏ dữ liệu tần số cao nhất. Điều này về cơ bản làm mịn hình ảnh bằng cách loại bỏ chi tiết tốt của nó, nhưng vẫn cung cấp cho bạn khoảng hình ảnh chính xác.

Và IIRC, FFT đôi khi cũng được sử dụng để phát hiện cạnh, trong đó bạn vứt bỏ tất cả trừ các thành phần tần số cao như một phương tiện để phát hiện các khu vực có độ tương phản cao ở các cạnh sắc nét.

National Cụ có một bài viết hay giải thích điều này bằng hình ảnh. :-)


0

Hãy tưởng tượng quét từng dòng hình ảnh bằng một tế bào quang điện và đưa kết quả cho máy vẽ (những máy phẳng này tạo ra sóng đen trên giấy), máy hiện sóng (những hộp này tạo ra sóng xanh nhấp nháy trên màn hình) hoặc máy phân tích phổ (hộp lớn hơn làm hàng rào màu xanh lá cây hoặc nhiều màu). Hoặc một loa thậm chí. Các cấu trúc trong một hình ảnh càng mịn thì tần số (cao độ trong loa) của tín hiệu được hiển thị / nghe sẽ càng cao. Càng có nhiều độ tương phản trong các cấu trúc mịn, biên độ của các phần tần số cao của tín hiệu sẽ càng cao.


-2

Đọc kết quả của một FFT hai chiều là ... Chà, khó khăn. Về cơ bản vì đầu ra là trong miền số phức.

Tôi không thể cung cấp cho bạn một mô tả rất chi tiết bởi vì tôi đã quên hầu hết nó, nhưng về cơ bản, bạn có một phân tách được biểu thị bằng tổng của một chuỗi các số mũ của số ảo.

Có các biến đổi tần số hữu ích cho việc xử lý hình ảnh hơn DFT, như Biến đổi Cosine (ví dụ được sử dụng trong mã hóa JPEG, chỉ có hệ số thực) và các loại Wavelet khác nhau.


Câu trả lời này về cơ bản bao gồm "những danh từ mà tôi không thể hoặc không muốn giải thích".
scottbb

@scottbb câu trả lời giải thích những khó khăn của việc diễn giải theo cách trực quan một Biến đổi Fourier (đó là biến đổi mà op đang hỏi về). Nếu bạn không biết số phức, hàm số mũ hay tổng là gì ... Chà, tôi sẽ đề nghị một số cách đọc nền.
fortran

Tôi không đồng ý, nó không giải thích những khó khăn khi diễn giải FT theo cách trực quan, nó chỉ khẳng định nó khó khăn vì số phức, và sau đó để nó ở đó. Là một sang một bên, tôi làm biết những gì số phức là, và tôi đã không quên định nghĩa của FT.
scottbb
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.