Tính năng trích xuất để phân loại âm thanh

15

Tôi đang cố gắng trích xuất các tính năng từ một tệp âm thanh và phân loại âm thanh thuộc về một loại cụ thể (ví dụ: vỏ chó, động cơ xe, v.v.). Tôi muốn một số rõ ràng về những điều sau đây:

1) Điều này có thể làm được không? Có những chương trình có thể nhận ra lời nói và phân biệt giữa các loại vỏ chó khác nhau. Nhưng có thể có một chương trình có thể nhận được một mẫu âm thanh và chỉ cần nói đó là loại âm thanh gì? (Giả sử có một cơ sở dữ liệu chứa rất nhiều mẫu âm thanh để tham khảo). Các mẫu âm thanh đầu vào có thể hơi ồn (đầu vào micrô).

2) Tôi giả sử rằng bước đầu tiên là trích xuất tính năng âm thanh. Bài viết này đề xuất trích xuất MFCC và đưa chúng vào thuật toán học máy. MFCC có đủ không? Có bất kỳ tính năng khác thường được sử dụng để phân loại âm thanh?

Cảm ơn bạn đã dành thời gian.

— Kevin Martin Jose
nguồn

15

Bằng cách bắn dài nó có thể thực hiện được - đến những gì mở rộng? Bạn sẽ thấy. Nhiệm vụ phân loại âm thanh môi trường này không được nghiên cứu kỹ. Ngoài ra lựa chọn mô hình học máy là rất quan trọng - phương pháp thống kê hoặc có thể phân loại nhị phân? Bạn có thể bắt đầu với GMM, ANN và SVM - Tôi chọn GMM's và ANN's.
Có, hầu hết mọi người đang sử dụng MFCC vì chúng tương quan tốt với những gì mọi người thực sự nghe thấy và cũng không ai nghĩ ra điều gì tốt hơn kể từ đó. Bạn cũng có thể muốn thêm các tính năng bổ sung như bộ mô tả MPEG-7. Tối ưu hóa tính năng phù hợp phải được thực hiện vì đôi khi bạn không cần quá nhiều tính năng, đặc biệt là khi chúng không thể tách rời. Để biết thêm thông tin xin vui lòng tham khảo câu trả lời trước của tôi:

Tính năng trích xuất từ phổ

Khai thác MFCC

Phát hiện âm thanh

— jojek
nguồn

Tôi sẽ mở rộng câu trả lời của tôi vào buổi tối.

— jojek

vẫn đang chờ câu trả lời mở rộng ...

— Nithin

Vào buổi tối ...

— jojek

4

Âm thanh không lời (nói riêng về môi trường) dường như là em trai của các loại phương tiện học máy chính như hình ảnh, lời nói, văn bản.

Để trả lời câu hỏi của bạn, có thể đào tạo một mạng để xác định một âm thanh nhất định? Vâng, đúng vậy! Nhưng thật khó cho tất cả những lý do tương tự học máy là khó.

Tuy nhiên, điều thực sự cản trở Audio và tại sao tôi gọi nó là em trai với hình ảnh và lời nói, là do Audio thiếu một bộ dữ liệu được dán nhãn quy mô lớn. Đối với bài phát biểu có TIMIT, đối với Hình ảnh có một số ImagenNet, CIFAR, Caltech, để xử lý văn bản và ngôn ngữ tự nhiên có rất nhiều tài liệu, v.v.

Theo hiểu biết của tôi, hai bộ dữ liệu âm thanh được gắn nhãn con người * lớn nhất là bộ dữ liệu UrbanSound và ESC-100, rất nhỏ cho các phương pháp học tập thực sự sâu. Có một số kết quả hỗn hợp được công bố trên các bộ dữ liệu này bằng cách sử dụng ConvNet 2 lớp.

Các tính năng của MFCC là một đại diện tính năng cơ bản được thiết lập tốt trong nhận dạng giọng nói và phân tích âm thanh nói chung. Nhưng có hàng tấn đại diện tính năng âm thanh khác! Bài viết này cung cấp một phân loại tốt đẹp của các loại tính năng âm thanh.

Công việc thú vị nhất trong việc phân loại âm thanh mà tôi thấy gần đây đang được thực hiện bởi một số người tại DeepMind, được gọi là WaveNet .

— ongCwright
nguồn

3

Dưới đây là một giải pháp để phân loại âm thanh cho 10 lớp: tiếng chó sủa, tiếng còi xe, trẻ em đang chơi v.v ... Nó dựa trên thư viện tenorflow sử dụng mạng lưới thần kinh. Các tính năng được trích xuất bằng cách chuyển đổi các clip âm thanh thành phổ

— abggcv
nguồn

3

chỉ đơn giản là liên kết là không đủ tốt như một câu trả lời.

— Gilles

Vâng, xin vui lòng mở rộng về những gì liên kết nói.

— Peter K.

2

Nhưng cảm ơn cho các liên kết tuy nhiên.

— Kevin Martin Jose

Thật ra tôi cũng đang cố gắng hiểu thêm về các kỹ thuật được sử dụng trong hướng dẫn được cung cấp trong liên kết. Kiến thức về tín hiệu âm thanh của tôi rất hạn chế vì tôi là một người xử lý hình ảnh và xử lý hình ảnh. Tôi sẽ cố gắng giải thích nhiều hơn về câu trả lời khi tôi hiểu rõ hơn.

— abggcv

1

Vâng, nó cực kỳ khả thi. Mặc dù NN rất xuất sắc trong loại đào tạo phân loại này, nhưng chúng thậm chí có thể không cần thiết - với một bộ tính năng được chọn tốt, chỉ là các thuật toán phân cụm cổ điển như mô hình hỗn hợp Gaussian hoặc phân tích thành phần chính, có thể cũng sẽ làm được . Các thư viện hiện đại có thể có được công cụ này đúng khoảng 95% thời gian trở lên.

— johnwbyrd
nguồn