Tại sao hầu hết các trợ lý thông minh cung cấp rất ít, nếu có, tùy chỉnh từ đánh thức?


14

Phần lớn các thương hiệu trợ lý thông minh , chẳng hạn như Amazon Echo và Google Home, cung cấp rất ít cách thức tùy chỉnh cho từ đánh thức (cụm từ bạn sử dụng để đánh thức thiết bị để nó lắng nghe bạn).

Ví dụ: Alexa chỉ cung cấp ba lựa chọn và Google Home chỉ hỗ trợ 'OK Google' . Rất nhiều người dùng dường như quan tâm đến ý tưởng về các từ đánh thức tùy chỉnh, tuy nhiên không có thương hiệu lớn nào có thêm hỗ trợ.

Có bất kỳ lý do kỹ thuật để hạn chế tùy chỉnh từ đánh thức, hoặc nó chỉ đơn giản là một sự lựa chọn thương hiệu?

Tôi đã đọc về động lực của Google khi sử dụng 'OK Google' , điều này cho thấy ý tưởng xây dựng thương hiệu có thể đúng, nhưng dường như nhận dạng từ đánh thức không chính xác lắm , có lẽ chỉ ra lý do kỹ thuật. Bất cứ ai cũng có thể làm rõ yếu tố nào là lý do chính?


2
Một điều cần nhớ là việc xử lý để đánh thức như vậy phải được thực hiện trong một miền luôn có công suất rất thấp - thường có phần cứng chuyên dụng cho nhiệm vụ này trong một số SoC lớn hơn (đặc biệt là các SoC được sử dụng trong điện thoại), và tôi giả định rằng các hệ số bộ lọc / các tham số khác được tính toán cẩn thận và được tải vào phần cứng đó. Tôi quên SoC Echo chạy trên đó, nhưng tôi tưởng tượng có một bộ lọc tương tự. Tên của lớp thuật toán đang thoát khỏi tôi vào lúc này
Krunal Desai

Câu trả lời:


12

Có một số lý do.

Bài đăng trên blog này giải thích về Echo và từ thức dậy Alexa. Tôi sẽ tóm tắt một chút.

Nhận dạng từ Wake được thực hiện tại địa phương và trong thời gian thực . Điều đó giới hạn độ dài của từ đánh thức do giới hạn xử lý rõ ràng. Hơn nữa, người dùng không muốn đọc một bài thơ để kích hoạt trợ lý thông minh. Vì vậy, nó phải ngắn.

Nó phải hoạt động với độ chính xác gần như 100% khi được gọi và cũng không được công nhận với sự chắc chắn đó khi không được gọi. Điều đó làm cho vấn đề và cũng làm cho một chiều dài tối thiểu cho các từ đánh thức. Sự lựa chọn của Amazon để cho phép Echo khá đáng ngạc nhiên vì đây chỉ là hai âm tiết .

Nếu chúng ta nhìn vào các nghi phạm thông thường, chúng ta có Alexa (3 âm tiết), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4)Hey Siri (3). Tất cả các đại gia trong ngành gần như đồng ý về ba là một lựa chọn tốt về số âm tiết.

Thật kỳ lạ, từ "máy tính" được đánh giá cao nhất cũng có ba âm tiết và sẽ phù hợp với yêu cầu đó một cách dễ dàng. Nó cũng không được đăng ký nhãn hiệu.

Như blog của Cốt-lô và lý do mà nói với chúng tôi, chúng tôi hoàn toàn muốn tránh những thông tin sai lệch. Chúng ta hãy xem cách thiết lập các từ Computer, Siri, Cortana và Alexa. Đây là kho sách của Google từ năm 2008.

Ngram máy tính vượt trội alexa và siri

Chính xác, Siri và Alexa gần như chống lại máy tínhCortana báo lỗi. Không tìm thấy. Có ý nghĩa kể từ khi kho dữ liệu là từ năm 2008. Để cho chúng ta biết thêm một số lý do tại sao máy tính là một biểu đồ khủng khiếp khác từ một biểu đồ khác.

ngram của máy tính so với những từ khác

Ngram này cho thấy hai tên em bé phổ biến nhất của Hoa Kỳ năm 2016 (đối với tiền tệ), cũng như Tom và Dave cũng thẳng thắn chống lại máy tính . Nữ hoàng, bóng rổ và cảnh sát quản lý để đăng ký đúng. Dù sao điều này cho chúng ta một ý tưởng tại sao Máy tính, Earl Grey, Hot vẫn chưa được cho phép cho đến nay. Mọi người sử dụng từ máy tính từ quá thường xuyên.

Một điều nữa về dương tính giả. Alexa vần với hầu như không có gì người ta sẽ nói.

19 điều có vần với alexa

Máy tính vần với 74 điều.


1
... Và điều này giải thích tại sao Scotty không đánh thức máy tính .
Ghanima

2
"Tôi sẽ làm tình với một con chim ... Không, không phải bạn Alexa!"
David nói Phục hồi lại

1
"OK Google" là bốn âm tiết ("oh kay goo gull"), không phải ba, và nhiều hơn rất nhiều so với nhiều âm vị.
Monty Harder

1
Alexa là một cái tên đầu tiên ... Cá nhân tôi biết 2 người có tên đó, một trong số đó là anh em họ. Tiếng vọng được sử dụng như trong ngôn ngữ của tôi và tôi thường nói "có tiếng vang" khi có tiếng vang trên điện thoại hoặc thứ gì đó. Và amazon là một tên sông / bộ lạc cũ mà một anh chàng nhập vai như tôi nói tương đối thường xuyên. Họ thực sự đã làm hỏng điều này.
Olivier Grégoire

2
Tôi không chắc chắn tôi mua lời giải thích đó về lý do tại sao từ "máy tính" sẽ không hoạt động. Bản thân từ này không phải là điều duy nhất được công nhận. Là từ đầu tiên của cách nói và được theo sau bởi một khoảng dừng cũng là những thông tin quan trọng xác định từ lệnh.
Kevin Krumwiede

2

Có bất kỳ lý do kỹ thuật để hạn chế tùy chỉnh từ đánh thức

Khi thiết bị trợ lý không được sử dụng, bộ xử lý ứng dụng (tôi nghĩ ARM trong trường hợp Alexa cũng như Google Home) bị treo và đưa đến trạng thái năng lượng thấp nhất có thể. Việc phát hiện từ đánh thức được để lại cho DSP rất hiệu quả về năng lượng, lắng nghe tiếng ồn / giọng nói xung quanh và chạy một thuật toán để quyết định xem có khớp với từ đánh thức không. Nếu nó tìm thấy một trận đấu với độ tin cậy cao, DSP sẽ đánh thức lõi ARM để xử lý phần còn lại của quá trình xử lý.

Bây giờ vì mục tiêu là tiết kiệm năng lượng, DSP được đề cập sẽ chạy thuật toán cũng như lưu trữ mẫu mẫu trên bộ nhớ trên chip thay vì RAM trên bo mạch chính. Điều này cho phép hệ thống thậm chí đưa RAM DDR về trạng thái năng lượng thấp nhất.

Vì DSP có một số điều quan trọng cần làm và rất ít bộ nhớ trên chip, các từ đánh thức Trợ lý bị giới hạn ở một số từ dễ chọn nhất có thể được so sánh bằng thuật toán với độ tin cậy cao.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.