Tại sao bộ mã hóa MP3 sử dụng biến đổi Fourier nhanh trước khi áp dụng mô hình tâm lý học?

Karlheinz Brandenburg mô tả một bộ mã hóa MP3 như thế này:

Tôi đã đánh dấu FFT vì tôi không chắc tại sao thực sự cần thiết phải thực hiện nó. Tại sao mô hình tâm lý học không thể được áp dụng cho các dòng được gọi là sau khi biến đổi cosine rời rạc được sửa đổi (MDCT) mà không thực hiện FFT?

Tôi có một số tài liệu ở đây, nói rằng độ phân giải tần số là không đủ chính xác. Điều này có nghĩa là, việc chia tín hiệu gốc thành 576 dòng (như bộ lọc và MDCT làm) không đủ chính xác để mô hình psychoacoust hoạt động bình thường? FFT có chính xác hơn không?

algorithms data-compression fourier-transform

— Âm vị học
nguồn

Kênh lọc và MDCT là nguồn gây ra lỗi mà mô hình Tâm lý âm thanh đang cố gắng giảm thiểu, tức là kênh phía trên bị mất. Từ các số có vẻ đúng - 1024 thành phần tần số trong tín hiệu thực so với 576 trong đường ống nén.

— KWillets

Tôi sẽ đề nghị một lời giải thích chi tiết hơn về codec mp3 .

FFT được áp dụng trên tín hiệu miền thời gian, vì vậy trên thực tế, nó không sử dụng kết quả từ MDCT. Đầu vào cho các mô hình tâm lý học nằm trong miền tần số, do đó là FFT.

Có ít nhất một vài lý do để làm điều đó. MDCT với các bộ lọc hoạt động trên các khối chồng chéo rất ngắn, tối đa hóa việc nén - FFT sử dụng các mẫu dài hơn và có độ phân giải phổ tốt hơn. (Thật khó để so sánh vì MDCT hoạt động như một biến đổi ngắn hạn; nếu điều này có tầm quan trọng lớn đối với bạn, tôi sẽ phải thực hiện so sánh đó.)

Bạn có thể nghĩ về MDCT của bộ lọc theo cách tương tự như lượng tử hóa JPEG (đây là một sự tương tự rất tốt, vì cả hai đều sử dụng DCT) và FFT để phát hiện các tạo tác DCT từ quá trình nén. Sau đó, mô hình tâm lý học làm mịn các lỗi nằm dưới ngưỡng "có thể chịu được", nhưng để làm được điều đó, các mẫu miền thời gian (ở đây PCM - Điều chế mã xung là không đủ, vì sự thay đổi tần số đột ngột được nghe là vết nứt) - vì vậy nó sử dụng miền tần số để phát hiện những điểm không liên tục như vậy và sau đó làm mịn nó trong miền thời gian.

Hai điều không được giải thích trong các bài viết nhưng rất quan trọng. Khi PCM chênh lệch cao, loa có khoảng cách di chuyển nhiều hơn, do đó có độ trễ về thời gian và tùy thuộc vào khả năng của loa, nó có thể gây ra các rung động bổ sung, đó là những tiếng ồn khá khác biệt so với loa. Phần thứ hai là giữa các dòng, phiên bản tín hiệu được lượng tử hóa được chuyển đổi trở lại để so sánh nó với âm thanh gốc và kiểm tra xem nó lệch bao nhiêu.

Dựa trên loại mặt nạ của cửa sổ (dựa trên so sánh FFT và MDCT đảo ngược) được chọn để bù tốt hơn cho độ lệch âm thanh so với ban đầu.

Con người cảm nhận được sự thay đổi tần số tốt hơn thay đổi biên độ, do đó bộ lọc hoạt động ở cả hai miền cùng một lúc và tín hiệu lượng tử được đảo ngược và làm mịn được thực hiện trong miền thời gian.

Đúng, độ phân giải của MDCT với các bộ lọc là không đủ, nhưng đây là phần mà phần nén công bằng xảy ra, và sau đó nó bị che đi. Nhưng mô hình tâm lý học có độ phân giải phổ như được đưa ra trong bài báo.

Có, FFT chính xác hơn vì nó nhận được các mẫu dài hơn, do đó nó có độ phân giải tốt hơn giữa các thùng.

Chú thích
DCT (M) thường được thực hiện bằng cách thực hiện FFT, vì vậy điều này không liên quan gì đến biến đổi được sử dụng. MDCT có thể được xem như là một Biến đổi Fourier ngắn hạn được sửa đổi một chút với bộ lọc được chọn đặc biệt (các bộ lọc giống với thang đo Mel để nhận dạng giọng nói).

FFT được sử dụng lâu hơn, cung cấp các thuật toán dễ dàng hơn để thay đổi cường độ và dễ áp dụng hơn cho âm thanh. (M) DCT giảm thiểu số lượng thành phần, nghĩa là chúng ta có thể cắt nhiều dữ liệu hơn từ kết quả so với từ FFT.

Nhưng trong trường hợp âm thanh các thành phần đó không ổn định, việc cắt luôn, ví dụ như hai thùng ra sẽ tạo ra sự biến dạng lớn hơn giữa các khung liên tiếp so với thực hiện thao tác tương đương trên kết quả FFT. Vì vậy, kết nối giữa FFT và những gì chúng ta nghe được lớn hơn (M) DCT và những gì chúng ta nghe thấy, nhưng nén có sẵn là cách khác.

— Tà ác
nguồn