Ngôn ngữ tiếng Anh có thể được khái quát bằng cách sử dụng một bộ quy tắc ngữ pháp không?


10

Trong các ngôn ngữ lập trình, có một tập hợp các quy tắc ngữ pháp chi phối việc xây dựng các câu và biểu thức hợp lệ. Các quy tắc này giúp phân tích cú pháp các chương trình được viết bởi người dùng.

Có thể có bao giờ là một bộ chức năng hoàn chỉnh các quy tắc ngữ pháp mà có thể phân tích bất kỳ tuyên bố bằng tiếng Anh (bản địa đặc thù) một cách chính xác và có thể được có thể thực hiện để sử dụng trong các dự án AI-dựa?

Tôi biết rằng có rất nhiều Bộ công cụ NLP có sẵn trực tuyến, nhưng chúng không hiệu quả. Hầu hết trong số họ được đào tạo sử dụng các xác chết cụ thể đôi khi không thể suy ra một số mối tương quan phức tạp giữa các phần khác nhau của một biểu thức.

Nói cách khác, điều tôi đang hỏi là liệu máy tính có thể phân tích một câu thành thạo được viết bằng tiếng Anh như thể nó được phân tích bởi một người nói tiếng Anh trưởng thành không?

EDIT: Nếu nó không thể được biểu diễn bằng các quy tắc ngữ pháp đơn giản, loại cấu trúc ngữ nghĩa nào có thể được sử dụng để khái quát nó?

EDIT2: Bài viết này chứng minh sự vắng mặt của bối cảnh trong ngôn ngữ tự nhiên. Tôi đang tìm kiếm một giải pháp, ngay cả khi nó quá phức tạp.


2
Tôi không có tài liệu tham khảo để sao lưu điều này, nhưng tôi nghĩ rằng nó đã được chứng minh một cách toán học rằng bạn không thể làm điều này-- rằng việc hiểu tiếng Anh hoàn toàn đòi hỏi các ngữ cảnh đòi hỏi lý luận ngữ nghĩa cấp cao hơn không thể có trong quy tắc ngữ pháp.
antlersoft

Theo wikipedia, hầu hết các phần của ngôn ngữ tự nhiên đều không có ngữ cảnh: en.wikipedia.org/wiki/
Kẻ

Câu trả lời:


8

Có bao giờ có một bộ quy tắc ngữ pháp hoàn chỉnh về mặt chức năng có thể phân tích chính xác bất kỳ câu nào bằng tiếng Anh (cụ thể theo địa phương) và có thể được thực hiện để sử dụng trong các dự án dựa trên AI không?

Phân tích nó có, chính xác rất có thể không.

Tại sao ?

Theo hiểu biết của tôi về cách chúng tôi rút ra ý nghĩa từ âm thanh, có 2 chiến lược bổ sung:

Quy tắc ngữ pháp: Một hệ thống dựa trên quy tắc để sắp xếp các từ để tạo thuận lợi cho việc giao tiếp, ở đây ý nghĩa bắt nguồn từ sự tương tác của các âm thanh rời rạc và ý nghĩa độc lập của chúng, vì vậy bạn có thể phân tích một câu dựa trên một cuốn sách quy tắc.

EG "Đây là một chiến thắng" : trình phân tích cú pháp sẽ trích xuất một đại từ ( Điều này ) với ý nghĩa tương ứng (một người hoặc vật cụ thể); một động từ ( đã ) có nghĩa tương ứng (xảy ra); ( a ) và ở đây chúng tôi bắt đầu với một số vấn đề phân tích cú pháp, trình phân tích cú pháp sẽ trích xuất cái gì, một danh từ hoặc một bài viết không xác định? Vì vậy, chúng tôi tham khảo sách quy tắc ngữ pháp và giải quyết nghĩa (bài viết không xác định bất kỳ một trong số nào), bạn phải phân tích từ tiếp theo và mặc dù vậy, nhưng bây giờ hãy bỏ qua nó và cuối cùng ( chiến thắng ) một danh từ (nó cũng có thể là một động từ, nhưng nhờ cuốn sách quy tắc ngữ pháp, chúng tôi đã giải quyết một danh từ có nghĩa: (chiến thắng, chinh phục), vì vậy cuối cùng chúng tôi có (tham gia ý nghĩa):

Một điều cụ thể đã xảy ra của chiến thắng. Đủ gần và tôi đang theo dõi một vài quy tắc khác, nhưng đó không phải là vấn đề, chiến lược khác là:

Một từ điển từ vựng (hoặc từ vựng) Trong đó các từ hoặc âm thanh được liên kết với ý nghĩa cụ thể. Ở đây ý nghĩa được bắt nguồn từ một hoặc nhiều từ hoặc âm thanh như một đơn vị. Điều này giới thiệu vấn đề cho một trình phân tích cú pháp, vì tốt, nó không nên phân tích bất cứ điều gì.

EG "Non Plus Ultra" Và do đó, trình phân tích cú pháp AI sẽ nhận ra rằng cụm từ này không được phân tích cú pháp và thay vào đó khớp với nghĩa:

Điểm cao nhất hoặc đỉnh điểm

Các đơn vị từ vựng giới thiệu một vấn đề khác ở chỗ chính chúng có thể là một phần của ví dụ đầu tiên, và vì vậy bạn kết thúc với đệ quy.

nếu máy tính có thể phân tích một câu thông thạo được viết bằng tiếng Anh như thể nó được phân tích bởi một người nói tiếng Anh trưởng thành?

Tôi tin rằng có thể, hầu hết các ví dụ tôi đã thấy có hiệu quả với sách quy tắc ngữ pháp hoặc phần từ vựng, nhưng tôi không biết về sự kết hợp của cả hai, nhưng về mặt lập trình, nó có thể xảy ra.

Thật không may, ngay cả khi bạn giải quyết vấn đề này, AI của bạn sẽ không thực sự hiểu mọi thứ theo nghĩa chặt chẽ, mà thay vào đó là trình bày cho bạn những từ đồng nghĩa rất phức tạp, ngoài ngữ cảnh (như đã đề cập trong các bình luận) đóng vai trò trong các chiến lược ngữ pháp và từ vựng.

Nếu nó không thể được biểu diễn bằng các quy tắc ngữ pháp đơn giản, loại cấu trúc ngữ nghĩa nào có thể được sử dụng để khái quát nó?

Một hỗn hợp trong đó có cả quy tắc ngữ pháp và từ vựng và cả hai đều có thể thay đổi và bị ảnh hưởng dựa trên bối cảnh và kinh nghiệm cụ thể của AI cũng như một hệ thống để xử lý các đối tượng này có thể là một cách.


Phạm vi tiếng Anh của tôi bị hạn chế sử dụng chính thức. Nếu lần đầu tiên chúng ta bỏ qua các thực thể rất phức tạp như ẩn dụ hoặc thành ngữ, liệu việc xác định một ngữ pháp nhạy cảm theo ngữ cảnh có đạt được mục đích không?
skrtbhtngr

@skrtbhtngr: theo lý thuyết thì đúng, nó sẽ là một tập hợp con vì ngôn ngữ chính thức là vậy, bối cảnh vẫn sẽ là vấn đề khó khăn.
Keno

Trường hợp bên lề: "Đó là một Triumph" nói về một chiếc xe máy vì nhiều lý do (xe đạp đầu tiên, xe đạp bị cháy), Có lẽ chúng ta có thể tranh luận rằng cần một chữ hoa để phân biệt thương hiệu với một danh từ.
Tensibai

Tôi đồng ý rằng việc hiểu ý nghĩa của văn bản là phần khó. Chỉ cần một câu đơn giản: "Peter đã đi đến rạp chiếu phim." Chứa nhiều thông tin ẩn: Peter là nam, có lẽ anh ta đến đó để xem phim với bạn gái, địa điểm của anh ta đã thay đổi, v.v ... Xây dựng mô hình ví dụ như một biểu đồ dựa trên văn bản là không đủ, bởi vì đó là không phải là một cái gì đó tĩnh, nó có thể mô tả nhiều mốc thời gian, sự kiện và bối cảnh, cộng với có thông tin ẩn trong mỗi câu bạn có thể suy luận và sử dụng để hiểu các câu trước hoặc sau.
inf3rno

2

Tôi khá chắc chắn rằng câu trả lời là "không" theo nghĩa chặt chẽ nhất, vì tiếng Anh đơn giản là không có định nghĩa chính thức. Đó là, không ai kiểm soát tiếng Anh và xuất bản một ngữ pháp chính thức mà mọi người đều phải tuân thủ. Tiếng Anh được xây dựng thông qua một quá trình trải nghiệm và nó có những mâu thuẫn và sai sót, nhưng bản chất xác suất của tâm trí con người cho phép chúng ta làm việc xung quanh những điều đó.

Ví dụ: "câu" này:

Câu này không có động từ

Về mặt kỹ thuật, đây không phải là một câu, vì nó không có động từ. Nhưng có ai có bất kỳ vấn đề hiểu ý nghĩa của nó? Nghi ngờ. Hãy thử đưa ra một quy tắc chính thức cho điều đó mặc dù. Và đó chỉ là một ví dụ.

Bây giờ, bạn có thể đưa ra một ngữ pháp chính thức bao gồm, có thể, 90% các trường hợp, và "đủ tốt" cho hầu hết các ứng dụng thực tế không? Có thể, thậm chí có thể. Nhưng tôi khá chắc chắn rằng nó không thể đạt được 100%.


1
Ví dụ của bạn không đúng ngữ pháp, vậy tại sao một ngữ pháp phải chứa một quy tắc chính thức để mô tả nó?
BlindKungFuMaster

1
Đó chính xác là quan điểm của tôi. Đó rõ ràng là tiếng Anh và nó rõ ràng dễ hiểu, nhưng nếu không đáp ứng định nghĩa thường được sử dụng của ngữ pháp tiếng Anh. Do đó, đây là một ví dụ về cách tiếng Anh trong thế giới thực hoạt động bên ngoài giới hạn của một ngữ pháp cứng nhắc.
trí

2

Chúng tôi đã kết luận rằng đó là một vấn đề hai mặt, vòng tròn: cấu trúc không thể được suy ra mà không có ngữ cảnh nhưng biết cấu trúc cũng giúp suy ra bối cảnh. Vì vậy, đây là giải pháp phức tạp của bạn: bắt đầu với ngữ cảnh, được xác định bằng cách kết hợp các từ trong câu (tổ hợp và vấn đề tìm kiếm), từ đó xác định cấu trúc của bạn hoặc "phân tích cú pháp" (ở bước này bạn cũng có thể lọc ra một số các từ không đáng kể hoặc ít nhất là gán trọng lượng nhỏ hơn cho chúng), quay lại bối cảnh, quay lại phân tích cú pháp và tiếp tục cho đến khi bạn đạt được ý nghĩa. Do đó bằng cách lặp, giảm đệ quy toàn bộ vấn đề có thể được giải quyết.


2

Tôi hoàn toàn không đồng ý với tất cả các ý kiến ​​trước đây. Không phải vì họ sai, - họ không phải - mà vì họ đang gây hiểu lầm - mặc dù vô tình.

Ví dụ: Nếu một người nhìn vào những vấn đề này từ vị trí học tập, các vấn đề sẽ luôn có vẻ không thể vượt qua. Điều này là do mọi thứ được đánh giá lạnh lùng và tính toán tách biệt với mọi thứ khác.

Câu trả lời chủ yếu nằm ở sự liên kết từ . Bạn phải viết một chương trình có thể xử lý một cơ sở dữ liệu lớn về sách kỹ thuật số, để đăng ký từng từ và tất cả các từ trong ngôn ngữ đó được liên kết với nó. Cộng với tất cả các thông tin thống kê với mỗi từ liên quan và dấu câu liên quan của nó.

Điều này sau đó sẽ cung cấp cho bạn cơ sở để AI có thể quyết định một số điều:

  1. Cho dù cấu trúc của một câu nhất định là chính xác.
  2. Nếu cấu trúc là xấu, xác suất là gì để xác định bối cảnh và ý định của những gì đang được nói.
  3. Ý nghĩa chính xác và ứng dụng của một từ nhiều mặt (Triumph), là theo xác suất - theo thống kê.
  4. Để xác định nơi một cuộc trò chuyện có khả năng sẽ đi.
  5. Những gì đúng ngữ pháp, và dấu câu nên được.

Vì vậy, để kết luận, bạn có hai điều cần tìm: Hiệp hội và xác suất.

Khi cơ sở dữ liệu kỹ thuật số mô hình ngôn ngữ, khả năng từ và chuỗi "chuỗi" xảy ra, do đó mọi biến thể của cấu trúc ngôn ngữ trong bất kỳ câu đã cho nào đều có thể được xác định trước, trong và sau khi một mẫu văn bản được viết nguệch ngoạc. Sự kiểm soát mật thiết này đối với các mẫu mô hình ngôn ngữ, có nghĩa là các thành phần nhạy cảm như "chủ đề" và "đối tượng" có thể được xác định dễ dàng bằng mã.


Tôi nghĩ rằng đó là quá lạc quan. Ngôn ngữ quá lộn xộn để làm việc này.
Oliver Mason
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.