Tôi đã sử dụng quang phổ trong quá khứ và nó dường như hoạt động tốt. Ý tưởng cơ bản là, tạo ra một phổ tín hiệu của bạn, trên các dải bạn quan tâm. Giả sử rằng tần số của bạn nằm trên trục y và thời gian của bạn nằm trên trục x, như vậy .
Điều này có nghĩa là quang phổ của bạn là một ma trận. Mỗi cột biểu thị giá trị tuyệt đối của FFT của một lần chụp nhanh theo thời gian của tín hiệu của bạn và mỗi hàng biểu thị mức năng lượng từ một dải thay đổi theo thời gian.
Bây giờ, chỉ cần lấy sự khác biệt của các cột. Đó là, lấy một cột và trừ đi chính nó trước cột đó và thực hiện cho tất cả các cột. (Rời khỏi cột bắt đầu một mình rõ ràng). Sau đó tổng hợp trên tất cả các ban nhạc. Đó là, chỉ cần tổng hợp tất cả các hàng với nhau.
Bạn sẽ kết thúc với một tín hiệu 1-D mà hệ thống hóa tín hiệu của bạn thời gian bắt đầu . Điều này sẽ cho bạn biết giọng nói của bạn bắt đầu từ đâu.
BIÊN TẬP:
Bây giờ bạn đã phát hiện các bộ dữ liệu, nếu bạn muốn phát hiện ngược lại, (nghĩa là khi tín hiệu chuyển từ không có hoạt động sang không), thông lượng quang phổ thực sự cung cấp cho bạn thông tin đó. Bất cứ khi nào bạn có một khởi phát, bạn sẽ có một đỉnh tích cực và bất cứ nơi nào bạn có một 'deset' (vì không có từ nào tốt hơn), bạn sẽ có một đỉnh âm.
Tôi chỉ đơn giản là lấy đỉnh dương đầu tiên và đỉnh âm cuối cùng, để đánh dấu tổng thời gian bắt đầu và dừng của tín hiệu của tôi.