Làm thế nào để trợ lý cá nhân thường tạo ra câu?

Đây là loại tiếp theo cho câu hỏi này về hướng nghiên cứu NLG trong lĩnh vực ngôn ngữ học.

Làm thế nào để các công cụ trợ lý cá nhân như Siri, Google Now hoặc Cortana thực hiện Tạo ngôn ngữ tự nhiên (NLG)? Cụ thể, phần tạo văn bản câu . Tôi không quan tâm đến phần chuyển văn bản thành giọng nói, chỉ là phần tạo văn bản.

Tôi không tìm kiếm chính xác làm thế nào mỗi người làm điều đó, vì thông tin đó có thể không có sẵn.

Tôi tự hỏi những gì thiết lập được yêu cầu để thực hiện tạo câu có chất lượng đó?

Bạn cần loại dữ liệu nào trong cơ sở dữ liệu (ở mức cao)?
- Có yêu cầu phải có một từ điển của mỗi từ có thể và ý nghĩa của nó, cùng với nhiều cuốn sách / chú thích được phân tích và phân tích thống kê được thêm vào từ đó không?
- Có yêu cầu thực sự ghi âm mọi người nói chuyện theo cách tự nhiên (chẳng hạn như từ chương trình TV hoặc podcast), phiên âm chúng thành văn bản và sau đó thêm bằng cách nào đó vào "hệ thống" của họ không? (để có được những câu thực sự giống "con người")
- Hoặc chỉ có các mẫu câu dựa trên cú pháp đơn giản mà họ đang sử dụng, không có cơ sở dữ liệu "nghĩa" ngữ nghĩa khổng lồ? Trường hợp ai đó chỉ viết một loạt các loại biểu thức thông thường ..
Các thuật toán được sử dụng cho các câu giống như con người được viết tự nhiên là gì?

Một lý do để hỏi là, có vẻ như lĩnh vực NLG rất xa để có thể làm những gì Siri và Google Now và những người khác đang hoàn thành. Vì vậy, những loại công cụ họ đang làm? (Chỉ dành cho phần tạo văn bản câu).

algorithms data-structures natural-language-processing

— Lance Pollard
nguồn

Có thể có vô số cách tiếp cận nhưng tôi tin rằng một trong số chúng ít nhất là sự kết hợp giữa hệ thống dựa trên quy tắc và hệ thống dựa trên thống kê. Google rõ ràng có rất nhiều mẫu văn bản theo ý của họ, vì vậy khi bạn gõ "Tôi muốn sw ..", nó sẽ xem xét các mẫu đó và cho bạn "bơi" và "đu trên cây" vì đó là điều xảy ra nhiều nhất. Hệ thống dựa trên quy tắc có thể cho phép Google cũng tìm kiếm các mẫu có cùng cấu trúc ngữ pháp nhưng nội dung khác nhau (ví dụ: "chúng tôi muốn bơi"). Đó chỉ là một cách tiếp cận của nhiều người.

— Jeroen Vannevel

Có lẽ có hai mặt rất khác biệt cho câu hỏi: Tạo câu phù hợp và âm thanh tự nhiên từ văn bản thành bài giảng. Bạn có thể muốn làm rõ phía nào bạn quan tâm nhất.

— Bart van Ingen Schenau 18/1/2015

Thông thường những câu này không được tạo ra, nhưng được lấy từ kho dữ liệu vô hạn mà internet hiện nay tạo thành. Peter Norvig có một mục hay trong Bộ luật đẹp cho thấy một số vấn đề NLP về cơ bản tự giải quyết như thế nào một khi bạn có quyền truy cập vào một kho văn bản nghìn tỷ. Chúng tôi muốn tin rằng việc tạo câu hữu ích ở một mức độ khó hoàn toàn khác so với phân đoạn hoặc gạch nối rõ ràng, nhưng thực sự không phải vậy; không phải khi bạn có nhiều dữ liệu ví dụ để chọn.

— Kilian Foth

@BartvanIngenSchenau được cập nhật, tôi không quan tâm đến phần văn bản thành giọng nói, chỉ làm thế nào để xây dựng các câu văn bản một cách tự nhiên.

— Lance Pollard

@KilianFoth ah điều đó rất thú vị, cảm ơn vì sự sáng suốt. Sẽ xem xét thêm về điều đó (đoán đây là norvig.com/ngrams ). Bạn có nói rằng ngày nay nó không đáng để thử các phương pháp khác?

— Lance Pollard

Câu trả lời:

Siri thường không "tạo ra" câu. Cô ấy phân tích những gì bạn nói và 'nhận ra' các từ khóa nhất định, chắc chắn và đối với các câu trả lời chung, cô ấy sẽ sử dụng một mẫu, chẳng hạn như I found [N] restaurants fairly close to youhoặcI couldn't find [X] in your music, [Username].

Nhưng hầu hết các câu trả lời của cô ấy đều được đóng hộp, tùy theo cách giải thích của cô ấy về bài phát biểu của bạn, ngoài một trình tạo số ngẫu nhiên để chọn một câu trả lời sáng tạo cho một câu hỏi thiếu sót. Đơn giản chỉ cần hỏi Siri "Một khúc gỗ có thể tặc được bao nhiêu gỗ?" hoặc "ý nghĩa của cuộc sống là gì?" sẽ tạo ra bất kỳ câu trả lời nào. Có rất nhiều tài liệu tham khảo văn hóa và những câu chuyện cười tích hợp (và nguyên văn lặp đi lặp lại) chứng minh một cách chắc chắn rằng Siri không chỉ tự phát ra hầu hết các văn bản của mình, mà kéo nó từ một cơ sở dữ liệu nào đó. Có khả năng các câu hỏi đến được lưu vào một máy chủ trung tâm, nơi các câu trả lời mới cho những câu hỏi đó có thể được tạo bởi các nhân viên của Apple, cho phép Siri "học hỏi".

Tuy nhiên, phần chuyển văn bản thành giọng nói của cô ấy đủ tốt, tuy nhiên, đôi khi nó làm cho dường như các câu trả lời đang được tạo ra ...

— Ayelis
nguồn

Nếu bạn có một cái gọi là biểu diễn cú pháp sâu sắc về những gì bạn muốn tạo, chẳng hạn như đọc (anh ấy, cuốn sách) , thì việc tạo ra biểu diễn tuyến tính của nó tương đối dễ dàng. Người ta cần một ngữ pháp chính thức mô tả cú pháp của ngôn ngữ và từ vựng hình thái cho các hình thức bị biến dạng. Thế hệ là một thứ tự cường độ dễ hơn phân tích (vì một là "tạo ra sự mơ hồ", không giải quyết nó).

Nếu bạn chỉ có một biểu diễn logic (giả sử, theo logic thứ nhất), mọi thứ trở nên phức tạp hơn. Giả sử, bạn đã mua (John, cuốn sách) đọc (John, cuốn sách) . Người ta có thể tạo ra hai câu như John đã mua một cuốn sách. John đọc một cuốn sách nhưng nó cảm thấy không tự nhiên. Một đầu ra tốt hơn sẽ là John mua một cuốn sách. Anh đọc nó. Thậm chí tốt hơn là tạo ra một câu ghép với và . Biểu diễn logic có thể tương tự như biểu diễn cú pháp sâu ở trên nhưng không có đại từ, không có giới hạn mệnh đề, v.v ... Giai đoạn dịch một biểu diễn logic thuần túy của thứ mà người ta muốn truyền tải thành một thứ "giống con người" hơn được gọi là "ngôn ngữ" lập kế hoạch "hoặc" lập kế hoạch câu "và là nhiệm vụ khó khăn hơn trong quy trình.

— Atamiri
nguồn