Máy tính có thể “học” một biểu thức chính quy bằng các ví dụ do người dùng cung cấp không?

Question 1

Máy tính có thể "học" một biểu thức chính quy bằng các ví dụ do người dùng cung cấp không?

Làm rõ:

Tôi không muốn học biểu thức chính quy.
Tôi muốn tạo một chương trình "học" một biểu thức chính quy từ các ví dụ do người dùng cung cấp một cách tương tác, có thể bằng cách chọn các phần từ văn bản hoặc chọn các điểm đánh dấu đầu hoặc cuối.

Có khả thi không? Có thuật toán, từ khóa, v.v. nào mà tôi có thể sử dụng Google không?

CHỈNH SỬA : Cảm ơn bạn đã trả lời, nhưng tôi không quan tâm đến các công cụ cung cấp tính năng này. Tôi đang tìm kiếm thông tin lý thuyết, chẳng hạn như giấy tờ, hướng dẫn, mã nguồn, tên các thuật toán để tôi có thể tạo ra thứ gì đó cho riêng mình.

Question 2

Cuốn sách Giới thiệu về Lý thuyết Học tập Tính toán chứa một thuật toán để học một tự động hữu hạn. Vì mọi ngôn ngữ thông thường đều tương đương với một tự động hóa hữu hạn, nên có thể học một số biểu thức chính quy bằng một chương trình. Kearns và Valiant chỉ ra một số trường hợp không thể học một automaton hữu hạn. Một vấn đề liên quan là học Mô hình Markov ẩn , là các tự động dữ liệu xác suất có thể mô tả một chuỗi ký tự. Lưu ý rằng hầu hết các "biểu thức chính quy" hiện đại được sử dụng trong các ngôn ngữ lập trình thực sự mạnh hơn các ngôn ngữ thông thường và do đó đôi khi khó học hơn.

Question 3

Có, hoàn toàn có thể, chúng tôi có thể tạo regex từ các ví dụ (văn bản -> phần trích xuất mong muốn). Đây là một công cụ trực tuyến đang hoạt động thực hiện công việc: http://regex.inginf.units.it/

Công cụ trực tuyến Regex Generator ++ tạo regex từ các ví dụ được cung cấp bằng cách sử dụng thuật toán tìm kiếm GP. Thuật toán GP được thúc đẩy bởi sự phù hợp đa mục tiêu dẫn đến hiệu suất cao hơn và cấu trúc giải pháp đơn giản hơn (Occam's Razor). Công cụ này là một ứng dụng giải mã của Phòng thí nghiệm Máy Lerning, Trieste Univeristy (Università degli studi di Trieste). Vui lòng xem video hướng dẫn tại đây .

Đây là một dự án nghiên cứu nên bạn có thể đọc về các thuật toán đã sử dụng tại đây .

Hãy chứng kiến! :-)

Việc tìm kiếm một giải pháp / regex có ý nghĩa từ các ví dụ là có thể thực hiện được nếu và chỉ khi các ví dụ được cung cấp mô tả tốt vấn đề. Hãy xem xét các ví dụ mô tả một nhiệm vụ trích xuất, chúng tôi đang tìm kiếm các mã hàng cụ thể; các ví dụ là các cặp văn bản / trích xuất:

"The product code is 467-345A" -> "467-345A"
"The item 789-345B is broken"  -> "789-345B"

Một anh chàng (con người), khi xem các ví dụ, có thể nói: "mã mặt hàng là những thứ như \ d ++ - 345 [AB]"

Khi mã hàng dễ dãi hơn nhưng chúng tôi không cung cấp các ví dụ khác, chúng tôi không có bằng chứng để hiểu rõ vấn đề. Khi áp dụng giải pháp do con người tạo \ d ++ - 345 [AB] cho văn bản sau, nó không thành công:

"On the back of the item there is a code: 966-347Z"

Bạn phải cung cấp các ví dụ khác để mô tả rõ hơn đâu là đối sánh và đâu là đối sánh không mong muốn: --ie:

"My phone is +39-128-3905 , and the phone product id is 966-347Z" -> "966-347Z"

Số điện thoại không phải là id sản phẩm, đây có thể là một bằng chứng quan trọng.

Question 4

Không chương trình máy tính nào có thể tạo một biểu thức chính quy có nghĩa chỉ dựa trên danh sách các kết quả phù hợp hợp lệ. Để tôi chỉ cho bạn hiểu vì sao.

Giả sử bạn cung cấp các ví dụ 111111 và 999999, máy tính sẽ tạo ra:

Một regex khớp chính xác hai ví dụ đó: (111111|999999)
Một regex khớp với 6 chữ số giống nhau (\d)\1{5}
Một regex phù hợp với 6 cái và 9 cái [19]{6}
Một regex khớp với 6 chữ số bất kỳ \d{6}
Bất kỳ mục nào trong số ba mục trên, với ranh giới từ, ví dụ: \b\d{6}\b
Bất kỳ trong ba chữ số đầu tiên, không đứng trước hoặc theo sau bởi một chữ số, ví dụ: (?<!\d)\d{6}(?!\d)

Như bạn có thể thấy, có nhiều cách để các ví dụ có thể được tổng quát hóa thành một biểu thức chính quy. Cách duy nhất để máy tính xây dựng một biểu thức chính quy có thể dự đoán là yêu cầu bạn liệt kê tất cả các kết quả phù hợp có thể có. Sau đó, nó có thể tạo ra một mẫu tìm kiếm khớp chính xác với những kết quả phù hợp đó.

Nếu bạn không muốn liệt kê tất cả các kết quả phù hợp có thể có, bạn cần mô tả cấp cao hơn. Đó chính xác là những gì biểu thức chính quy được thiết kế để cung cấp. Thay vì cung cấp một danh sách dài các số có 6 chữ số, bạn chỉ cần yêu cầu chương trình khớp với "sáu chữ số bất kỳ". Trong cú pháp biểu thức chính quy, nó trở thành \ d {6}.

Bất kỳ phương pháp nào cung cấp mô tả cấp cao hơn linh hoạt như biểu thức chính quy cũng sẽ phức tạp như biểu thức chính quy. Tất cả các công cụ như RegexBuddy có thể làm là giúp tạo và kiểm tra mô tả cấp cao dễ dàng hơn. Thay vì sử dụng trực tiếp cú pháp biểu thức chính quy ngắn gọn, RegexBuddy cho phép bạn sử dụng các khối xây dựng thuần túy bằng tiếng Anh. Nhưng nó không thể tạo mô tả cấp cao cho bạn, vì nó không thể biết một cách kỳ diệu khi nào nó nên khái quát hóa các ví dụ của bạn và khi nào thì không.

Chắc chắn có thể tạo một công cụ sử dụng văn bản mẫu cùng với các nguyên tắc do người dùng cung cấp để tạo biểu thức chính quy. Điều khó khăn trong việc thiết kế một công cụ như vậy là làm thế nào nó yêu cầu người dùng cung cấp thông tin hướng dẫn mà nó cần, mà không làm cho công cụ khó học hơn chính các biểu thức chính quy và không giới hạn công cụ đối với các công việc regex phổ biến hoặc các biểu thức chính quy đơn giản.

Question 5

Vâng, nó chắc chắn là "có thể"; Đây là mã giả:

string MakeRegexFromExamples(<listOfPosExamples>, <listOfNegExamples>)
{
   if HasIntersection(<listOfPosExamples>, <listOfNegExamples>)
     return <IntersectionError>

   string regex = "";
   foreach(string example in <listOfPosExamples>)
   {
      if(regex != "")
      {
         regex += "|";
      }
      regex += DoRegexEscaping(example);
   }
   regex = "^(" + regex + ")$";

   // Ignore <listOfNegExamples>; they're excluded by definition

   return regex;
}

Vấn đề là có vô số regex sẽ khớp với một danh sách các ví dụ. Mã này cung cấp regex đơn giản nhất / ngu ngốc nhất trong tập hợp, về cơ bản khớp với bất kỳ thứ gì trong danh sách các ví dụ tích cực (và không có gì khác, kể cả bất kỳ ví dụ tiêu cực nào).

Tôi cho rằng thách thức thực sự sẽ là tìm ra regex ngắn nhất phù hợp với tất cả các ví dụ, nhưng ngay cả khi đó, người dùng sẽ phải cung cấp đầu vào rất tốt để đảm bảo biểu thức kết quả là "đúng".

Question 6

Tôi tin rằng thuật ngữ này là "cảm ứng". Bạn muốn tạo ra một ngữ pháp thông thường.

Tôi không nghĩ là có thể với một tập hợp hữu hạn các ví dụ (tích cực hoặc tiêu cực). Nhưng, nếu tôi nhớ lại chính xác, nó có thể được thực hiện nếu có một Oracle có thể được tư vấn. (Về cơ bản, bạn phải để chương trình hỏi người dùng câu hỏi có / không cho đến khi nó nội dung.)

Question 7

Bạn có thể muốn chơi với trang web này một chút, nó khá tuyệt và có vẻ như nó làm điều gì đó tương tự như những gì bạn đang nói: http://txt2re.com

Question 8

Có một ngôn ngữ dành riêng cho những vấn đề như thế này, dựa trên phần mở đầu. Nó được gọi là progol .

Như những người khác đã đề cập, ý tưởng cơ bản là học quy nạp, thường được gọi là ILP ( lập trình logic quy nạp ) trong giới AI.

Liên kết thứ hai là bài viết wiki trên ILP, chứa rất nhiều tài liệu nguồn hữu ích nếu bạn muốn tìm hiểu thêm về chủ đề này.

Question 9

@Yuval là chính xác. Bạn đang xem lý thuyết học tập tính toán hay "suy luận quy nạp".

Câu hỏi phức tạp hơn bạn nghĩ, vì định nghĩa của "học" là không tầm thường. Một định nghĩa phổ biến là người học có thể phun ra câu trả lời bất cứ khi nào họ muốn, nhưng cuối cùng, họ phải ngừng phun ra câu trả lời, hoặc luôn luôn phun ra cùng một câu trả lời. Điều này giả định số lượng đầu vào vô hạn và hoàn toàn không cung cấp cho garauntee về thời điểm chương trình sẽ đạt được quyết định. Ngoài ra, bạn không thể biết khi nào nó ĐÃ đưa ra quyết định vì nó vẫn có thể xuất ra thứ gì đó khác sau đó.

Theo định nghĩa này, tôi khá chắc chắn rằng các ngôn ngữ thông thường đều có thể học được. Theo các định nghĩa khác, không quá nhiều ...

Question 10

Tôi đã thực hiện một số nghiên cứu trên Google và CiteSeer và tìm thấy các kỹ thuật / giấy tờ sau:

Ngoài ra, "Học các tập hợp thông thường từ truy vấn và phản mẫu" của Dana Angluin có vẻ đầy hứa hẹn, nhưng tôi không thể tìm thấy phiên bản PS hoặc PDF, chỉ trích dẫn và báo cáo hội thảo.

Có vẻ như đây là một bài toán khó ngay cả trên bình diện lý thuyết.

Question 11

Nếu một người có thể học một biểu thức chính quy, thì về cơ bản là có thể đối với một chương trình. Tuy nhiên, chương trình đó sẽ cần được lập trình chính xác để có thể học được. May mắn thay, đây là một không gian logic khá hữu hạn, vì vậy nó sẽ không phức tạp như việc dạy một chương trình để có thể nhìn thấy các vật thể hoặc thứ gì đó tương tự.