DCT có thể được sử dụng cho phổ cường độ âm thanh thay vì DFT không?


13

Theo những gì tôi hiểu, DCT có một nửa kích thước bin là một DFT có cùng kích thước N. DFT cũng bao gồm thông tin pha, nhưng thường thì điều này là không cần thiết khi chỉ cần phổ cường độ.

  • DCT có thể được sử dụng để cung cấp phổ cường độ với mật độ gấp đôi (một nửa khoảng cách bin) của DFT hoặc sẽ mất thông tin pha?
  • Làm thế nào với một chồng chéo 50%?

4
Tôi tin rằng DCT cũng bao gồm thông tin pha, nó chỉ không sử dụng số phức. "FFT thực" cũng sử dụng một nửa bộ nhớ và một nửa thời gian tính toán cho cùng một thông tin, bằng cách loại bỏ các tần số âm giống hệt nhau. "phần thực của FFT có độ dài gấp đôi giống như DCT ngoại trừ dịch pha nửa mẫu trong các hàm cơ sở hình sin"
endolith

Thật vậy, tối thiểu, dấu hiệu của một hệ số có thể được coi là giai đoạn của một người nghèo
Laurent Duval

Câu trả lời:


3

Có, DCT có thể được sử dụng để cung cấp phổ cường độ với mật độ gấp đôi. Tôi hoàn toàn không hiểu sự chồng chéo, nhưng tôi cho rằng vì DCT bao phủ ít hơn, bạn nghĩ rằng sẽ có sự chồng chéo. Để cung cấp câu trả lời đủ điều kiện cho câu hỏi, hãy để tôi đánh giá nhanh việc sử dụng DCT trong việc xử lý hình ảnh chủ yếu.

Đầu tiên, chúng ta cần đưa ra một số giả định. Để sử dụng DCT, bạn cần phải có tín hiệu thực sự. Đây là định nghĩa. Trong khi bạn đang nói, DCT có một nửa kích thước bin so với DFT ở kích thước N, bạn cho rằng tín hiệu là tín hiệu tần số thấp. Nếu không, không quá nhiều.

Để sử dụng DCT trong nén, vì DFT của hình ảnh sẽ đối xứng, nó tạo ra thông tin dư thừa (gương một bên sẽ đủ để tái tạo tín hiệu). Do đó, kernel của DCT được sử dụng để tạo ra thông tin dày đặc hơn so với DFT. Điều này cũng đúng với tín hiệu âm thanh tần số thấp, nó có thể được sử dụng theo cách tương tự. Trong khi nó làm cho nó dày hơn, các hệ số trở nên lớn hơn, vì hạt nhân của DCT bao phủ cả hai mặt (phần thực và phần ảo) của tín hiệu.

Chuyên ngành của tôi là xử lý hình ảnh, vì vậy tôi đã cố gắng ánh xạ các khái niệm và giải thích DCT và DFT trong xử lý hình ảnh. Một sự khác biệt giữa hình ảnh và âm thanh có thể là kích thước, mặc dù. Trong xử lý hình ảnh, bạn biết các kích thước (hàng và cột cho FFT và mục đích xử lý khác). Tôi đoán rằng bạn cần phải phân chia vectơ dữ liệu âm thanh bằng cách nào đó để tiếp tục xử lý. Không biết dữ liệu, điều này có thể gây rắc rối (tôi không chắc chắn).

Đây là một hình ảnh được lấy từ web, nhưng tôi đã không viết nó xuống nơi tôi đã chụp nó, có thể là wikipedia.;

Đang xử lý hình ảnh

Như bạn có thể thấy, hình ảnh biến đổi được biểu diễn trong DCT bằng phổ cường độ mà không có vấn đề gì. Trong một cách nhỏ gọn và dày đặc hơn, và nhìn vào độ lớn của các hệ số. Nó lớn hơn hai lần DFT. DFT là đối xứng, bạn có thể chia nó thành hai. Một phần là dư thừa. Và một điều nữa, DCT có thể lưu trữ thông tin không chỉ là một nửa của DFT mà là gần một phần tư của DFT. Đó thường là trường hợp DCT vượt qua DFT trong hình ảnh.


FFT không thể được chia thành phần tư, bởi vì nó dư thừa ở cả hai chiều X và Y?
endolith

Tại sao có vẻ như FFT chứa nhiều thông tin hơn và DCT chứa nhiều số 0 hơn?
endolith

Câu hỏi đầu tiên, tôi không hiểu lắm, ý nghĩa của kích thước X và Y là gì? Đối với câu hỏi thứ hai, là do sự khác biệt trong hạt nhân của họ. Không có vẻ như DCT chứa nhiều số 0, nó thực sự chứa nhiều số không hơn so với Biến đổi Fourier thông thường (DFT). Điều này là do một lần nữa sự khác biệt của họ trong hạt nhân của họ.
Hephaestus

Ý tôi là hình ảnh là tín hiệu thực, vì vậy FFT chứa thông tin dư thừa. Nửa âm của FFT chỉ là một tấm gương của nửa dương, ở cả hai chiều.
endolith

0
  • Làm thế nào với một chồng chéo 50%?

Từ câu hỏi này, tôi hiểu rằng bạn đang nghĩ về việc thực hiện xử lý cục bộ, xử lý khối, theo cách trượt Fourier hoặc quang phổ.

  • DCT có thể được sử dụng để cung cấp phổ cường độ với mật độ gấp đôi (một nửa khoảng cách bin) của DFT hoặc sẽ mất thông tin pha?

Nếu bạn nói về phổ cường độ, tất nhiên là một phần của pha (có thể là đối số của hệ số Fourier phức tạp hoặc dấu hiệu của hệ số DCT) dù sao cũng sẽ bị mất .

Vì vậy, tất nhiên bạn có thể cắm rất nhiều hạt nhân thay thế cho biến đổi Fourier có cửa sổ bên trong công thức Fourier ngắn hạn chỉ để phân tích. Các giống khác nhau của DCT, các phiên bản chồng chéo của chúng (LÔ, MDCT), với các thuộc tính trực giao và cửa sổ đẹp, thậm chí có thể được đảo ngược (tổng hợp).

Trong âm thanh, DCT (không phức tạp) hoặc các phiên bản chồng chéo thường được sử dụng để phân tích, phát hiện và phát hiện cao độ, (tách nguồn mù), ví dụ như STFT, MDCT và đảo ngược hộp công cụ Matlab của A. Liutkus. Các lớn thời gian phân tích tần số hộp công cụ (LTFAT) cũng sở hữu:

  • Biến đổi TF nhanh với thang tần số thời gian tuyến tính: Gabor (STFT), Wilson và MDCT cửa sổ
  • Hồi quy thưa thớt trong miền Gabor và WMDCT

Tôi không biết rõ về âm thanh. Tuy nhiên, sự trùng lặp 50% hoặc 75% là rất phổ biến và rất ít người sử dụng các cài đặt khác. Tuy nhiên, rất phổ biến để sử dụng ít nhất hai kích thước cửa sổ , một kích thước dài của một phần tĩnh, một ngắn cho thoáng qua, để giúp vượt qua giới hạn tần suất thời gian "một cửa sổ".

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.