Bạn có thể nghĩ về DCT như một bước nén. Thông thường với MFCC, bạn sẽ lấy DCT và sau đó chỉ giữ lại một vài hệ số đầu tiên. Về cơ bản, đây là lý do tương tự mà DCT được sử dụng trong nén JPEG. DCT được chọn vì điều kiện biên của chúng hoạt động tốt hơn trên các loại tín hiệu này.
Hãy đối chiếu DCT với biến đổi Fourier. Biến đổi Fourier được tạo thành từ các sin có số chu kỳ nguyên. Điều này có nghĩa là, tất cả các hàm cơ sở Fourier đều bắt đầu và kết thúc ở cùng một giá trị - chúng không làm tốt việc biểu diễn các tín hiệu bắt đầu và kết thúc ở các giá trị khác nhau. Hãy nhớ rằng biến đổi Fourier giả định một phần mở rộng định kỳ: Nếu bạn tưởng tượng tín hiệu của mình trên một tờ giấy, biến đổi Fourier muốn cuộn tờ giấy đó thành một hình trụ để hai bên trái và phải gặp nhau.
Hãy nghĩ về một quang phổ có hình dạng gần giống như một đường có độ dốc âm (khá điển hình). Biến đổi Fourier sẽ phải sử dụng rất nhiều hệ số khác nhau để phù hợp với hình dạng này. Mặt khác, DCT có các cosin với số chu kỳ nửa số nguyên. Ví dụ, có một hàm cơ sở DCT trông mơ hồ giống như đường đó với độ dốc âm. Nó không giả sử một phần mở rộng thời gian (thay vào đó, một phần mở rộng chẵn), vì vậy nó sẽ làm tốt hơn việc phù hợp với hình dạng đó.
Vì vậy, hãy đặt điều này cùng nhau. Khi bạn đã tính toán phổ tần số Mel, bạn có một biểu diễn phổ rất nhạy theo cách tương tự như cách hoạt động của thính giác con người. Một số khía cạnh của hình dạng này có liên quan nhiều hơn những khía cạnh khác. Thông thường, hình dạng phổ bao trùm càng lớn càng quan trọng hơn các chi tiết mịn nhiễu trong phổ. Bạn có thể tưởng tượng việc vẽ một đường thẳng để đi theo hình dạng phổ và rằng đường thẳng mà bạn vẽ có thể cho bạn biết nhiều về tín hiệu.
Khi bạn lấy DCT và loại bỏ các hệ số cao hơn, bạn đang lấy hình dạng phổ này và chỉ giữ các phần quan trọng hơn để thể hiện hình dạng mịn này. Nếu bạn đã sử dụng biến đổi Fourier, nó sẽ không làm tốt việc giữ thông tin quan trọng ở các hệ số thấp.
Nếu bạn nghĩ về việc cung cấp MFCC như các tính năng cho thuật toán học máy, thì các hệ số bậc thấp này sẽ tạo ra các tính năng tốt, vì chúng đại diện cho một số khía cạnh đơn giản của hình dạng phổ, trong khi các hệ số bậc cao hơn mà bạn loại bỏ sẽ giống như nhiễu hơn và không quan trọng để đào tạo về. Ngoài ra, việc đào tạo về cường độ phổ Mel có thể sẽ không tốt vì biên độ cụ thể ở các tần số khác nhau ít quan trọng hơn hình dạng chung của phổ.