Lý do tại sao bạn thấy chuyển đổi Fourier được áp dụng hai lần trong quy trình trích xuất tính năng là các tính năng được dựa trên một khái niệm gọi là cepstrum. Cepstrum là một trò chơi trên phổ từ - về cơ bản, ý tưởng là biến đổi tín hiệu thành miền tần số bằng biến đổi Fourier, và sau đó thực hiện một biến đổi khác như thể phổ tần số là tín hiệu.
Trong khi phổ tần số mô tả biên độ và pha của từng dải tần số, cepstrum đặc trưng cho các biến thể giữa các dải tần số. Các tính năng có nguồn gốc từ cepstrum được tìm thấy để mô tả tốt hơn lời nói so với các tính năng được lấy trực tiếp từ phổ tần số.
Có một vài định nghĩa hơi khác nhau. Biến đổi cepstrum ban đầu được định nghĩa là biến đổi Fourier -> logarit phức tạp -> biến đổi Fourier [1]. Một định nghĩa khác là biến đổi Fourier -> logarit phức tạp -> biến đổi Fourier ngược [2]. Động lực cho định nghĩa sau là ở khả năng phân tách các tín hiệu được tích hợp (lời nói của con người thường được mô hình hóa như sự kết hợp của một kích thích và một giọng hát).
Một lựa chọn phổ biến đã được tìm thấy để hoạt động tốt trong các hệ thống nhận dạng giọng nói là áp dụng ngân hàng bộ lọc phi tuyến tính trong miền tần số (phương pháp tạo khối bạn đang đề cập đến) [3]. Thuật toán cụ thể được định nghĩa là biến đổi Fourier -> bình phương độ lớn -> ngân hàng lọc mel -> logarit thực -> biến đổi cosine rời rạc.
Ở đây DCT có thể được chọn làm biến đổi thứ hai, bởi vì đối với đầu vào có giá trị thực, phần thực của DFT là một loại DCT. Lý do tại sao DCT được ưa thích là đầu ra xấp xỉ. Các tính năng giải mã có thể được mô hình hóa một cách hiệu quả dưới dạng phân phối Gaussian với ma trận hiệp phương sai chéo.
[1] Bogert, B., Healy, M. và Tukey, J. (1963). Quefrency Alanysis của Time Series cho Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum và Saphe Cracking. Trong Kỷ yếu của Hội nghị chuyên đề về phân tích chuỗi thời gian, tr. 209-243.
[2] Oppenheim, A. và Schafer, R. (1968). Phân tích đồng âm của lời nói. Trong Giao dịch của IEEE về Âm thanh và Âm điện 16, tr. 221-226.
[3] Davis, S. và Mermelstein, P. (1980). So sánh các đại diện tham số cho nhận dạng từ đơn âm tiết trong các câu nói liên tục. Trong Giao dịch của IEEE về Âm học, Xử lý lời nói và Tín hiệu 28, tr. 357-366.