Có lẽ trước tiên người ta nên xác định vấn đề xử lý ngôn ngữ tự nhiên (NLP) là gì.
Ví dụ, ngữ pháp và ngôn ngữ không ngữ cảnh (CF) được giới thiệu bởi các nhà ngôn ngữ học (ngôn ngữ Chomsky loại 2, công việc của Bar-Hillel và các ngôn ngữ khác). Sự mơ hồ là một vấn đề lớn trong Ngôn ngữ học để phân tích câu thực và trong nghiên cứu chính thức về ngữ pháp CF (sự mơ hồ) và ngôn ngữ (sự mơ hồ vốn có). Sự mơ hồ của một ngữ pháp chỉ là bán quyết định.
Vì vậy, tôi đoán vấn đề mơ hồ nên là một câu trả lời cho câu hỏi của bạn. Liệu nó được phân loại là một vấn đề NLP?
Bây giờ nếu bạn thực hiện một số chính thức hóa cú pháp hiện đại, chẳng hạn như xương sống CF với các cấu trúc tính năng (nghĩa là các thuộc tính có cấu trúc), bạn sẽ nhanh chóng có được sức mạnh Turing (cf LFG đã được chứng minh NP cứng , hoặc thậm chí Turing hoàn chỉnh , tùy thuộc vào các biến thể). Vì vậy, nếu bạn không cẩn thận, bạn có tất cả các vấn đề phức tạp mà bạn có thể mơ ước.
Để biết thêm, bạn cũng có thể xem câu hỏi này từ SE-Linguistic: " Liệu phỏng đoán P so với NP trong khoa học máy tính có liên quan trực tiếp đến ngôn ngữ học không? "
Trong câu trả lời của riêng tôi , tôi thực sự chỉ trích ý nghĩa của câu hỏi, hoặc ít nhất là một số cách giải thích của nó. Nhiều vấn đề được xem xét trong ngôn ngữ học, liên quan đến phân tích câu, cho dịch thuật hoặc các mục đích khác, là vấn đề nhỏ, sẽ được giải quyết trong một thời gian rất ngắn. Một số nhà ngôn ngữ học thậm chí có thể tranh luận rằng có sự đệ quy thực sự trong cấu trúc ngôn ngữ, vì bất kỳ đệ quy nào cũng hiếm khi rất sâu sắc. Do đó, người ta có thể tự hỏi về sự phù hợp về mặt ngôn ngữ của phân tích độ phức tạp được xác định là không có triệu chứng. Câu hỏi đầu tiên là liệu chúng ta có đủ gần với tiệm cận để phân tích tiệm cận có ý nghĩa hay không.
Tuy nhiên, nhận xét này không áp dụng cho một số khía cạnh của NLP, khi lượng dữ liệu khổng lồ phải được xử lý. Tôi biết ít nhất hai trường hợp:
khai thác dữ liệu trong khối lớn.
các vấn đề nghịch đảo của ngôn ngữ học: phân tích của corpora lớn để móc trích xuất các dữ liệu đặc trưng một ngôn ngữ, cả về mặt cấu trúc và tạo ra danh sách rộng rãi của các thành phần, chẳng hạn như âm vị, từ vựng cho các bộ phận khác nhau của lời nói (aka
preterminals ), tiền tố và hậu tố, hay uốn cơ chế, để đưa ra một vài ví dụ.
Tôi không phải là chuyên gia về khai thác dữ liệu, và do đó không biết liệu nó có thực sự làm tăng các vấn đề phức tạp liên quan đến kích thước của khối được xử lý hay không. Trong trường hợp đó, sự phức tạp tiệm cận thực sự sẽ là một vấn đề. Nhưng nếu nó chủ yếu bao gồm một số lượng lớn các nhiệm vụ phụ gia nhỏ, thì điều đáng nghi ngờ hơn là sự phức tạp tiệm cận có vấn đề lớn. Tuy nhiên, tôi sẽ tưởng tượng rằng một số kỹ thuật khai thác dữ liệu sẽ hoạt động với mối tương quan giữa các tài liệu độc lập và điều đó sẽ làm tăng các vấn đề phức tạp phụ thuộc vào kho dữ liệu.
Trong trường hợp có vấn đề nghịch đảo về ngôn ngữ học, việc xác định ngôn ngữ (mà tôi đoán là có thể được coi là vấn đề khai thác dữ liệu), chúng tôi thực sự đang cố gắng trích xuất thông tin bằng cách tương quan tất cả các phần của khối lớn. Sau đó, phức tạp tiệm cận trở nên cực kỳ liên quan. Rất tiếc, tôi không có vấn đề cụ thể nào trong đầu, có lẽ vì các hệ thống như vậy có mục đích thực dụng và mọi người phát triển chúng sẽ có xu hướng đơn giản là tránh mọi hình thức phức tạp cao hơn, nên phương trình bậc hai có thể đã vượt ra ngoài các tài nguyên có sẵn. Nhưng một tìm kiếm của các tài liệu có thể sẽ đưa ra một số vấn đề phức tạp.
Một điểm khác là ngôn ngữ học không có luật rõ ràng như vật lý. Đây là một vấn đề đủ gần với những gì có thể được coi là đồng thuận ngôn ngữ hiện tại, vì không có hai người nói chính xác cùng một ngôn ngữ. Do đó, xấp xỉ tốt thường là đủ khi mục tiêu rất khó nắm bắt. Các kỹ thuật tôi đã thấy chủ yếu là các kỹ thuật điểm cố định để xác định các tham số bằng cách tính toán lặp lại một số chức năng dựa trên cấu trúc kho văn bản, cho đến khi nó không còn tạo ra nhiều khác biệt (cộng với đầu vào của người dùng để loại bỏ các trường hợp bệnh lý còn lại).
Phân tích tính chất của ngữ pháp và các cấu trúc ngôn ngữ chính thức khác cũng có thể là nguồn gốc của các vấn đề phức tạp cao, như đã đề cập ở trên vì sự mơ hồ, vì các mô tả ngôn ngữ tự nhiên thường đủ lớn để phân tích tiệm cận có ý nghĩa.