Tôi sẽ đề nghị một lời giải thích chi tiết hơn về codec mp3 .
FFT được áp dụng trên tín hiệu miền thời gian, vì vậy trên thực tế, nó không sử dụng kết quả từ MDCT. Đầu vào cho các mô hình tâm lý học nằm trong miền tần số, do đó là FFT.
Có ít nhất một vài lý do để làm điều đó. MDCT với các bộ lọc hoạt động trên các khối chồng chéo rất ngắn, tối đa hóa việc nén - FFT sử dụng các mẫu dài hơn và có độ phân giải phổ tốt hơn. (Thật khó để so sánh vì MDCT hoạt động như một biến đổi ngắn hạn; nếu điều này có tầm quan trọng lớn đối với bạn, tôi sẽ phải thực hiện so sánh đó.)
Bạn có thể nghĩ về MDCT của bộ lọc theo cách tương tự như lượng tử hóa JPEG (đây là một sự tương tự rất tốt, vì cả hai đều sử dụng DCT) và FFT để phát hiện các tạo tác DCT từ quá trình nén. Sau đó, mô hình tâm lý học làm mịn các lỗi nằm dưới ngưỡng "có thể chịu được", nhưng để làm được điều đó, các mẫu miền thời gian (ở đây PCM - Điều chế mã xung là không đủ, vì sự thay đổi tần số đột ngột được nghe là vết nứt) - vì vậy nó sử dụng miền tần số để phát hiện những điểm không liên tục như vậy và sau đó làm mịn nó trong miền thời gian.
Hai điều không được giải thích trong các bài viết nhưng rất quan trọng. Khi PCM chênh lệch cao, loa có khoảng cách di chuyển nhiều hơn, do đó có độ trễ về thời gian và tùy thuộc vào khả năng của loa, nó có thể gây ra các rung động bổ sung, đó là những tiếng ồn khá khác biệt so với loa. Phần thứ hai là giữa các dòng, phiên bản tín hiệu được lượng tử hóa được chuyển đổi trở lại để so sánh nó với âm thanh gốc và kiểm tra xem nó lệch bao nhiêu.
Dựa trên loại mặt nạ của cửa sổ (dựa trên so sánh FFT và MDCT đảo ngược) được chọn để bù tốt hơn cho độ lệch âm thanh so với ban đầu.
Con người cảm nhận được sự thay đổi tần số tốt hơn thay đổi biên độ, do đó bộ lọc hoạt động ở cả hai miền cùng một lúc và tín hiệu lượng tử được đảo ngược và làm mịn được thực hiện trong miền thời gian.
Đúng, độ phân giải của MDCT với các bộ lọc là không đủ, nhưng đây là phần mà phần nén công bằng xảy ra, và sau đó nó bị che đi. Nhưng mô hình tâm lý học có độ phân giải phổ như được đưa ra trong bài báo.
Có, FFT chính xác hơn vì nó nhận được các mẫu dài hơn, do đó nó có độ phân giải tốt hơn giữa các thùng.
Chú thích
DCT (M) thường được thực hiện bằng cách thực hiện FFT, vì vậy điều này không liên quan gì đến biến đổi được sử dụng. MDCT có thể được xem như là một Biến đổi Fourier ngắn hạn được sửa đổi một chút với bộ lọc được chọn đặc biệt (các bộ lọc giống với thang đo Mel để nhận dạng giọng nói).
FFT được sử dụng lâu hơn, cung cấp các thuật toán dễ dàng hơn để thay đổi cường độ và dễ áp dụng hơn cho âm thanh. (M) DCT giảm thiểu số lượng thành phần, nghĩa là chúng ta có thể cắt nhiều dữ liệu hơn từ kết quả so với từ FFT.
Nhưng trong trường hợp âm thanh các thành phần đó không ổn định, việc cắt luôn, ví dụ như hai thùng ra sẽ tạo ra sự biến dạng lớn hơn giữa các khung liên tiếp so với thực hiện thao tác tương đương trên kết quả FFT. Vì vậy, kết nối giữa FFT và những gì chúng ta nghe được lớn hơn (M) DCT và những gì chúng ta nghe thấy, nhưng nén có sẵn là cách khác.