Alexa của Amazon , Nuance's Mix và Facebook của Wit.ai đều sử dụng một hệ thống tương tự để chỉ định cách chuyển đổi lệnh văn bản thành mục đích - tức là điều mà máy tính sẽ hiểu. Tôi không chắc tên "chính thức" cho cái này là gì nhưng tôi gọi nó là "nhận biết ý định". Về cơ bản là một cách để đi từ "vui lòng đặt đèn của tôi thành độ sáng 50%" thành lights.setBrightness(0.50)
.
Cách chúng được chỉ định là bằng cách nhà phát triển cung cấp danh sách "các cách nói mẫu" được liên kết với một mục đích và được gắn thẻ tùy chọn với các vị trí của "thực thể" (về cơ bản là các tham số). Đây là một ví dụ từ Wit.ai:
Câu hỏi của tôi là: làm thế nào để các hệ thống này hoạt động? Vì tất cả chúng đều rất giống nhau, tôi cho rằng có một số công việc tinh dịch mà tất cả chúng đều sử dụng. Có ai biết nó là gì?
Thật thú vị Houndify sử dụng một hệ thống khác giống như regexes : ["please"] . ("activate" | "enable" | "switch on" | "turn on") . [("the" | "my")] . ("lights" | "lighting") . ["please"]
. Tôi cho rằng điều đó được tích hợp vào tìm kiếm chùm của hệ thống nhận dạng giọng nói của họ, trong khi Alexa, Wit.ai và Mix dường như có các hệ thống Speech-> Text và Text-> Intent riêng biệt.
Chỉnh sửa: Tôi tìm thấy một điểm khởi đầu - Một cơ chế cho sự tương tác giữa người và robot thông qua các lệnh thoại không chính thức . Nó sử dụng một cái gì đó gọi là Phân tích ngữ nghĩa tiềm ẩn để so sánh các cách nói. Tôi sẽ đọc lên về điều đó. Ít nhất nó đã cho tôi một điểm khởi đầu trong mạng trích dẫn.
Chỉnh sửa 2: LSA về cơ bản là so sánh các từ được sử dụng (Bag of Words) trong mỗi đoạn văn bản. Tôi không thấy làm thế nào nó có thể hoạt động rất tốt trong trường hợp này vì nó hoàn toàn mất trật tự từ. Mặc dù có lẽ trật tự từ không quan trọng lắm đối với các loại lệnh này.
Chỉnh sửa 3: Chủ đề ẩn Các mô hình Markov trông có vẻ thú vị.