Tại sao loài người có thể phát ra âm thanh trong một đám đông? Điều gì sẽ làm cho một robot làm điều tương tự?

Tôi đã có mặt tại một hội nghị về Robotics vào hôm nay và một trong những diễn giả đã đề cập đến việc robot không thể hoạt động tốt trong đám đông vì họ không thể phát ra âm thanh như một người có thể.

Tại sao mọi người có thể phát ra âm thanh tốt như vậy? Và những gì sẽ cần cho một robot để làm điều tương tự?

Tôi biết về Giảm tiếng ồn chủ động (ANR) như trên tai nghe Bose Hàng không, nhưng đó không phải là điều tôi đang nói. Tôi đang suy nghĩ về khả năng đưa mọi thứ vào nhưng chỉ xử lý những gì bạn cảm thấy là quan trọng.

artificial-intelligence

— Miếng bọt biển Bob
nguồn

Câu trả lời:

Những gì diễn giả nói tại hội nghị là không chính xác. Có lẽ họ có nghĩa là " robot của chúng tôi không thể phát ra âm thanh như một người có thể", nhưng tuyên bố "[robot] không thể phát ra âm thanh như một người có thể" là sai.

Dưới đây là danh sách một phần các hệ thống có thể xác định nguồn tín hiệu âm thanh và theo dõi nó:

Điện thoại hội nghị (và nhiều điện thoại di động), với (các) kỹ thuật được mô tả trong bài báo này
Định vị tiếng súng
Robot dưới nước với các mảng micro kéo theo, ví dụ AUV được mô tả trong bài viết này
Robot trên mặt đất di động

Thuật ngữ bạn đang tìm kiếm là một "mảng pha" của micrô (xem thêm: Hộp công cụ mảng pha Matlab ). NASA sử dụng các mảng theo pha để định vị tiếng ồn phát ra từ các cánh quạt quay .

— Ian
nguồn

Đã được một thời gian kể từ khi tôi tham gia lớp âm thanh đó nhưng tôi cũng tin rằng bất kỳ giọng nói cụ thể nào cũng cần có những đặc điểm có thể được coi là hợp lý trong một đám đông.

— Erik Reppen

Để thêm vào danh sách của bạn, cảm biến Kinect cho Windows có một dải micrô mà nó có thể sử dụng để xác định âm thanh phát ra từ trình phát nào.

— WildCrustacean

Thật tuyệt vời, bạn có liên kết về cách truy cập thông tin đó từ Kinect không?

— Ian

+1. Nhưng một robot có thể đưa ra quyết định trong thời gian thực về những gì quan trọng và lọc theo đó không? Dường như với tôi rằng danh sách của bạn chỉ bao gồm các âm thanh mà robot có thể học trước.

— Adrian Keister

Chắc chắn rồi. Kỹ thuật này được gọi là Beamforming . Giả sử bạn có một số tiêu chí có thể lọc cho những gì được coi là "quan trọng", một khi bạn nhận được tín hiệu đó, bạn sẽ theo dõi chuyển động của nó từ vị trí không gian đó.

— Ian

Tôi nghĩ có ít nhất ba điều đang diễn ra:

Lọc phụ thuộc vào vị trí âm thanh phát ra. Thính giác âm thanh nổi của chúng tôi kết hợp với các thuộc tính nhất định về cách tai của chúng tôi được tạo ra giúp chúng tôi cách ly âm thanh đến từ một vị trí / hướng cụ thể.
Lọc mà phụ thuộc vào tần số / biên độ của âm thanh.
Sự dư thừa trong âm thanh cho phép chúng tôi xây dựng lại đầu vào. Nếu nhiều người đang nói với nhau (hoặc nói chung là có tiếng ồn), chúng ta chỉ cần nắm bắt một phần của những gì được nói (hoặc đôi khi thậm chí quan sát trực quan) để biết những gì đang được nói.

Tôi sẽ nghĩ rằng một robot có thể vượt trội hơn con người ở # 1 và # 2. Với một mảng micro, người ta sẽ nghĩ rằng bạn có thể tập trung hiệu quả vào một điểm duy nhất trong không gian và loại bỏ tất cả các nhiễu khác. Điều đó có thể được thực hiện phức tạp hơn bởi các phản xạ và các nhiễu loạn khác nhau. # 3 có lẽ là thứ mà máy tính khó làm hơn.

— Guy Sirton
nguồn

Từ bí mật cho đêm nay là stereo hearing. Hỏi bất kỳ người nào mất khả năng này vì bất kỳ lý do. Vì vậy, một chương trình hoặc thậm chí một robot có 2 mics trở lên sẽ có khả năng này - nếu lập trình viên biết cách xử lý đầu vào.

— ott--