Làm thế nào để Siri nhận ra tôi nói về Hey Hey Siri?

8

Tôi cố gắng để hiểu làm thế nào iPhone của tôi có thể tiếp tục lắng nghe tôi nói Hey Siri, Alexa, Hey Cortanahoặc Okay Googlekhông một cách nhanh chóng tháo pin của tôi xuống.

Tôi tưởng tượng hai loại thuật toán. Một lát ghi lại thời gian như lát cắt rộng 10 ms mỗi lát 200 ms và thực hiện phát hiện đồng bộ trên các tần số cụ thể. Tuy nhiên những thông số này phụ thuộc mạnh mẽ vào đặc tính của giọng nói của tôi. Hơn nữa, nó vẫn sẽ tiêu tốn rất nhiều năng lượng CPU để liên tục cố gắng kết hợp một Hey Siriở giữa hư không.

Những loại thuật toán / thực hiện năng lượng thấp hiệu quả (phần cứng hoặc phần mềm) có thể thực hiện nhiệm vụ đó?

Điều này bằng cách nào đó liên quan đến bằng sáng chế này, tôi nghĩ: https://www.google.com/patents/US20160253997

Tôi đọc một số bài báo nói về các mô hình Markov ẩn, nhưng tôi nghi ngờ đó là cách tiếp cận quyền lực rất thấp.

sound speech-recognition voice

— ngay bây giờ
nguồn

6

"Ok Google" được mô tả trong nhiều ấn phẩm của Google

Kiểm soát mức tăng tự động và đào tạo đa phong cách để phát hiện từ khóa dấu chân nhỏ mạnh mẽ với mạng lưới thần kinh sâu

Mạng lưới thần kinh chuyển đổi cho đốm từ khóa dấu chân nhỏ

Nó dựa trên DNN được đào tạo đặc biệt cho cụm từ khóa và chạy rất nhanh. Nó không tiêu thụ nhiều năng lượng ngay cả trên điện thoại di động.

Alexa đốm được thực hiện bởi cùng một kẻ và có sẵn như Snowboy

CẬP NHẬT: Apple mô tả việc thực hiện của họ ở đây .

— Nikolay Shmyrev
nguồn

1

Để giải thích về câu trả lời @ hotpaw2, "Hey Siri" chạy trên chip M9 Coprocessor công suất thấp , cũng hoạt động như các bước chân theo dõi, v.v. cho ứng dụng Sức khỏe. Theo đó, trong các thiết bị cũ không có chip M9, bạn cần cắm iDevice để hoạt động "Hey Siri".

Tôi nghĩ rằng việc triển khai phần cứng công suất thấp là chìa khóa (chứ không chỉ là thiên tài thuật toán bất khả tri phần cứng)

Người giới thiệu:

— ruoho ruotsi
nguồn

0

Chỉ là một số phỏng đoán hoang dã:

Phần cứng chuyên dụng (chip "M" bổ sung hoặc khối logic SOC với miền năng lượng riêng biệt), chạy ở tốc độ xung nhịp xử lý âm thanh hoặc chu kỳ nhiệm vụ, trên bộ đệm dữ liệu nhỏ, tiêu thụ ít năng lượng hơn so với CPU có khả năng phân cấp bộ nhớ lớn. CPU chính chỉ phải thức dậy nếu ID có thể ban đầu đủ cao, vì vậy thuật toán phát hiện ban đầu không cần phải tốt, chỉ đủ tốt. Ngoài ra, hãy xem xét mức độ nhỏ của pin trên tai nghe Bluetooth trong tai so với điện thoại thông minh có cùng thời lượng pin. Xử lý âm thanh đơn giản không nhanh chóng tiêu hao pin điện thoại di động tương đối lớn.

— hotpaw2
nguồn