Dưới đây là một tín hiệu đại diện cho một bản ghi âm của một ai đó nói chuyện. Tôi muốn tạo ra một loạt các tín hiệu âm thanh nhỏ hơn dựa trên điều này. Ý tưởng là phát hiện khi nào âm thanh 'quan trọng' bắt đầu và kết thúc và sử dụng chúng cho các điểm đánh dấu để tạo ra đoạn âm thanh mới. Nói cách khác, tôi muốn sử dụng khoảng im lặng làm chỉ báo khi âm thanh 'chunk' bắt đầu hoặc dừng và tạo bộ đệm âm thanh mới dựa trên điều này.
Vì vậy, ví dụ, nếu một người ghi lại chính mình nói
Hi [some silence] My name is Bob [some silence] How are you?
sau đó tôi muốn làm ba clip âm thanh từ đây. Một mà nói Hi
, một nói My name is Bob
và một nói How are you?
.
Ý tưởng ban đầu của tôi là chạy qua bộ đệm âm thanh liên tục kiểm tra nơi có các khu vực có biên độ thấp. Có lẽ tôi có thể làm điều này bằng cách lấy mười mẫu đầu tiên, lấy giá trị trung bình và nếu kết quả thấp thì gắn nhãn là im lặng. Tôi sẽ tiến hành đệm xuống bằng cách kiểm tra mười mẫu tiếp theo. Tăng theo cách này tôi có thể phát hiện nơi phong bì bắt đầu và dừng lại.
Nếu bất cứ ai có lời khuyên về một cách tốt, nhưng đơn giản để làm điều này sẽ là tuyệt vời. Đối với mục đích của tôi, giải pháp có thể khá thô sơ.
Tôi không phải là một chuyên gia tại DSP, nhưng hiểu một số khái niệm cơ bản. Ngoài ra, tôi sẽ thực hiện việc này theo chương trình để tốt nhất là nói về thuật toán và mẫu kỹ thuật số.
Cảm ơn vì sự giúp đỡ!
CHỈNH SỬA 1
Phản ứng tuyệt vời cho đến nay! Chỉ muốn làm rõ rằng đây không phải là âm thanh trực tiếp và tôi sẽ tự viết các thuật toán bằng C hoặc Objective-C để mọi giải pháp sử dụng thư viện không thực sự là một lựa chọn.