Golf mã cứng: Regex cho chia hết


75

Matthias Goergens có biểu thức chính trị 25.604 ký tự (giảm so với 63993 ký tự gốc) để khớp các số chia hết cho 7, nhưng bao gồm rất nhiều lỗi: dấu ngoặc đơn, phân phối ( xx|xy|yx|yythay vì [xy]{2}) và các vấn đề khác, mặc dù tôi chắc chắn khởi đầu mới sẽ hữu ích trong việc tiết kiệm không gian. Làm thế nào nhỏ này có thể được thực hiện?

Bất kỳ biểu thức chính quy hợp lý nào đều được phép, nhưng không có mã thực thi trong biểu thức chính quy.

Biểu thức chính quy phải khớp với tất cả các chuỗi chứa biểu diễn thập phân của một số chia hết cho 7 và không có chuỗi nào khác. Tín dụng bổ sung cho một regex không cho phép 0 ban đầu.


Ý định chính xác là gì? Liệu nó có phải khớp với tất cả các số có kích thước chia hết cho 7 hay không, ví dụ, chỉ có các gợi ý 32 bit hợp lệ?
Peter Taylor

2
@Peter Taylor: Nó phải khớp với tất cả các chuỗi là biểu diễn thập phân của một số chia hết cho 7. Tín dụng bổ sung cho các giải pháp không cho phép các số 0 đứng đầu.
Charles

1
Trong mọi trường hợp ... cần regex không khớp với số không thể chia cho 7?
gian hàng

@boothby: Hoàn toàn khác, bạn chỉ có thể sử dụng biểu thức trống.
Charles

2
@ n̴̖̋h̷͉̃a̷̭̿h̸̡̅ẗ̵̨́d̷̰̀ĥ̷̳ Có, 0 nên được cho phép trong cả hai phiên bản.
Charles

Câu trả lời:


24

10791 ký tự, số không được cho phép



10795 ký tự, số không hàng đầu bị cấm

0|((foo)0*)+, nơi regex ở trên là (0|foo)+.

Giải trình

Các số chia hết cho 7 được khớp với máy tự động hữu hạn rõ ràng với 7 trạng thái Q = {0, Hoài, 6}, trạng thái ban đầu và cuối cùng 0 và chuyển đổi d: i (10i + d) mod 7. Tôi đã chuyển đổi máy tự động hữu hạn này thành một biểu thức chính quy, sử dụng đệ quy trên tập các trạng thái trung gian được phép:

Cho i, j ∈ Q và S ⊆ Q, hãy để f (i, S, j) là một biểu thức chính quy khớp với tất cả các đường dẫn tự động từ i đến j chỉ sử dụng các trạng thái trung gian trong S. Sau đó,

f (i, ∅, j) = (j - 10i) mod 7,

f (i, S ∪ {k}, j) = f (i, S, j) ∣ f (i, S, k) f (k, S, k) * f (k, S, j).

Tôi đã sử dụng lập trình động để chọn k để giảm thiểu độ dài của biểu thức kết quả.


Tôi nghĩ rằng bạn phải thêm 2 ký tự cho trường hợp số 0 hàng đầu, vì tôi đoán số 0 phải được cho phép0|((foo)0*)+
n̴̖̋h̷͉̃a̷̭̿h̸̡̅ẗ̵̨́d̷̰̀ĥ̷̳

3
Tôi đã nhận xét về câu hỏi, nhưng theo cách hiểu thông thường, "không có số 0 đứng đầu" thường có nghĩa là không có số 0 thừa, nhưng nó không loại trừ số 0.
n̴̖̋h̷͉a̷̭̿h̸̡̅ẗ̵̨d̷̰ĥ̷̳

95

13.755 12.699 12.731 Nhân vật

Regex này không từ chối hàng đầu.



Điều này đã được thử nghiệm với The Regex Coach .

Chúng ta đến đó bằng cách nào

Regex ở trên được tạo bằng cách đầu tiên xây dựng một DFA sẽ chấp nhận đầu vào mà chúng ta muốn (số thập phân chia hết cho 7) và sau đó chuyển đổi thành Biểu thức chính quy và sửa lỗi ký hiệu

Để hiểu điều này, trước tiên, hãy tạo một DFA chấp nhận ngôn ngữ sau:

L = {w | w is a binary representation of an integer divisible by 7 }

Đó là, nó sẽ 'khớp' các số nhị phân chia hết cho 7.

DFA trông như thế này:

Mod 7 NFA

Làm thế nào nó hoạt động

Bạn giữ một giá trị hiện tại Ađại diện cho giá trị của các bit mà DFA đã đọc. Khi bạn đọc một 0sau đó A = 2*Avà khi bạn đọc một 1 A = 2*A + 1. Ở mỗi bước bạn tính toán A mod 7sau đó bạn đi đến trạng thái đại diện cho câu trả lời.

Vì vậy, một thử nghiệm chạy:

Chúng tôi đang đọc trong 10101đó là biểu diễn nhị phân cho 21 ở dạng thập phân.

 1. Chúng tôi bắt đầu ở tiểu bang q0, hiện tạiA=0
 2. Chúng tôi đọc một 1, từ 'quy tắc' ở trên A = 2*A + 1như vậy A = 1. A mod 7 = 1vì vậy chúng tôi chuyển sang trạng tháiq1
 3. Chúng ta đọc thấy một 0, A = 2*A = 2, A mod 7 = 2vì vậy chúng tôi chuyển sangq2
 4. Đọc một 1, A = 2*A + 1 = 5, A mod 7 = 5, di chuyển đếnq5
 5. Đọc một 0, A = 2*A = 10, A mod 7 = 3, di chuyển đếnq3
 6. Đọc một 1, A = 2*A + 1 = 21, A mod 7 = 0, di chuyển đếnq0
 7. Đầu vào được chấp nhận để số 10101chia hết cho 7!

Chuyển đổi DFA thành Biểu thức chính quy là một nhiệm vụ khó khăn vì vậy tôi đã có JFLAP để làm điều đó cho tôi, tạo ra các mục sau:

(0|111|100((1|00)0)*011|(101|100((1|00)0)*(1|00)1)(1((1|00)0)*(1|00)1)*(01|1((1|00)0)*011)|(110|100((1|00)0)*010|(101|100((1|00)0)*(1|00)1)(1((1|00)0)*(1|00)1)*(00|1((1|00)0)*010))(1|0(1((1|00)0)*(1|00)1)*(00|1((1|00)0)*010))*0(1((1|00)0)*(1|00)1)*(01|1((1|00)0)*011))*

Đối với số thập phân

Quá trình này rất giống nhau:

Tôi đã xây dựng một DFA chấp nhận ngôn ngữ:

L = {w | w is a decimal number that is divisible by 7}

Đây là DFA:

Logic là tương tự, cùng một số trạng thái chỉ cần nhiều chuyển tiếp để xử lý tất cả các chữ số thập phân thêm mà số mang lại.

Bây giờ quy tắc để thay đổi Aở mỗi bước là: khi bạn đọc một chữ số thập phân n: A = 10*A + n. Sau đó, một lần nữa bạn chỉ mod Abằng 7 và đi đến trạng thái tiếp theo.

Sửa đổi

Sửa đổi 5

Biểu thức chính quy ở trên bây giờ loại bỏ các số 0 đứng đầu - tất nhiên ngoài số không.

Điều này làm cho DFA hơi khác một chút, về cơ bản bạn phân nhánh từ nút ban đầu khi bạn đọc số 0 đầu tiên. Đọc một số không khác đặt bạn vào một vòng lặp vô hạn trên trạng thái phân nhánh. Tôi đã không sửa sơ đồ để hiển thị điều này.

Sửa đổi 7

Đã làm một số "metaregex" và rút ngắn regex của tôi bằng cách thay thế một số hiệp hội bằng các lớp nhân vật.

Bản sửa đổi 10 và 11 (bởi nhahtdh)

Sửa đổi của tác giả để từ chối hàng đầu là không chính xác. Nó làm cho các biểu thức chính không khớp với các số hợp lệ, chẳng hạn như 1110 (thập phân = 14) trong trường hợp biểu thức chính nhị phân và 70 trong trường hợp biểu thức chính quy thập phân. Các sửa đổi này hoàn nguyên sửa đổi, và do đó, cho phép các số 0 và chuỗi rỗng tùy ý khớp với nhau.

Bản sửa đổi này làm tăng kích thước của regex thập phân, vì nó sửa một lỗi trong regex gốc, gây ra bởi một cạnh (9) bị thiếu từ trạng thái 5 đến trạng thái 3 trong DFA ban đầu.


Tôi sẽ làm rõ câu hỏi để chỉ định thập phân. Vâng, nó dễ dàng hơn nhiều trong các căn cứ b trong đó 7 | b (b-1).
Charles

Tôi đã sửa đổi câu trả lời của tôi. Số thập phân là tất cả tốt: D
Griffin

Quá muộn để tôi sửa đổi nhận xét của mình, mặc dù ... ý tôi là 7 | B (B-1) trong đó B là công suất nhỏ của b. Nhị phân có một regex ngắn kể từ 7 | 8 (8-1). Số thập phân lớn hơn kể từ 7 | 999999000000 là nhỏ nhất mà hoạt động.
Charles

3
btw tôi nghĩ bạn đã sử dụng DFA , không phải NFA
mã nhị phân

2
Cả hai biểu thức chính trong câu trả lời này đều đúng. Số nhị phân không khớp 1110và một số thập phân không khớp 70. Điều này đã được thử nghiệm ở cả python và perl. (python yêu cầu chuyển đổi mọi thứ (thành (?:đầu tiên)
Daniel Martin

35

Regex .NET 119 118 105 byte

^(?>(?=[1468](?<4>)|)(?=[2569](?<4>){2}|)([3-6]()|\d)((?<-2>)(){3}|){7}((?<-4>){7}|(?<2-4>)|){9})+$(?!\2)

111 ký tự không cho phép 0 ban đầu:

^(?!0.)(?>(?=[1468](?<4>)|)(?=[2569](?<4>){2}|)([3-6]()|\d)((?<-2>)(){3}|){7}((?<-4>){7}|(?<2-4>)|){9})+$(?!\2)

113 ký tự không cho phép số 0 ban đầu và hỗ trợ các số âm:

^-?(?>(?=[1468](?<4>)|)(?=[2569](?<4>){2}|)([3-6]()|\d)((?<-2>)(){3}|){7}((?<-4>){7}|(?<2-4>)|){9})+$(?!\2)

Hãy thử nó ở đây.

Giải thích (của phiên bản trước)

Nó sử dụng các kỹ thuật được sử dụng bởi các câu trả lời khác nhau trong câu hỏi này: Cops and Robbers: Reverse Regex Golf . .NET regex có một tính năng gọi là nhóm cân bằng, có thể được sử dụng để thực hiện số học. (?<a>)đẩy một nhóm a. (?<-a>)bật và không khớp nếu trước đó không có nhóm nào akhớp.

 • (?>...)Khớp và không quay lại sau. Vì vậy, nó sẽ luôn luôn chỉ phù hợp với sự thay thế phù hợp đầu tiên.
 • ((?<-t>)(){3}|){6} Nhân số nhóm t với 3. Lưu kết quả vào số nhóm 2.
 • (?=[1468](?<2>)|)(?=[2569](?<2>){2}|)([3-6](?<2>){3}|\d) Ghép một số và số đó của nhóm 2.
 • ((?<-2>){7}|){3} Xóa nhóm 2 bội số của 7 lần.
 • ((?<t-2>)|){6} Xóa nhóm 2 và khớp với cùng số nhóm t.
 • $(?(t)a)Nếu vẫn còn một nhóm t khớp, khớp asau khi kết thúc chuỗi, điều này là không thể.

Tôi nghĩ phiên bản 103 byte này cũng sẽ hoạt động, nhưng không tìm thấy cách khắc phục lỗi trong trình biên dịch.

^(?(?(?((?<3>){2}[2569]|)([3-6])?((?<-1>)(){3}|){7})(?<3>[1468])?((?<-3>){7}|(?<1-3>)|){9})\d)+$(?(1)a)

Rất ngắn. Tôi muốn một lời giải thích về cách thức này hoạt động!
Charles

@Charles Đã chỉnh sửa.
jimmy23013

Tôi không nghĩ rằng điều này sẽ bị đánh bại, nhưng tôi thích ít nhất là phải thực hiện DFA với đệ quy, điều này chỉ là điên rồ. Tôi tự hỏi nếu ai đó có thể chứng minh hoặc từ chối .NET regexes khi Turing hoàn tất.
ThePlasmaRailgun

@ThePlasmaRailgun .NET regex chưa hoàn thành Turing, vì nó không cho phép lặp lại các ảnh chụp trống nhiều hơn giới hạn dưới ( ví dụ ). Vì vậy, mỗi nhóm có bộ định lượng chỉ có thể có một số lượng thay thế hữu hạn nếu đầu vào có độ dài cố định.
jimmy23013

Ah. Nếu không có sự ràng buộc đó, liệu Turing có hoàn thành?
ThePlasmaRailgun

30

468 ký tự

Hương vị regex của Ruby cho phép đệ quy (mặc dù đó là loại gian lận), do đó, thật đơn giản để thực hiện một DFA nhận ra các số chia hết cho 7 bằng cách sử dụng. Mỗi nhóm được đặt tên tương ứng với một trạng thái và mỗi nhánh trong các thay thế tiêu thụ một chữ số và sau đó nhảy đến trạng thái thích hợp. Nếu kết thúc số đạt được, regex chỉ khớp nếu động cơ nằm trong nhóm "A", nếu không thì không thành công.

Nó nhận ra số không hàng đầu.

(?!$)(?>(|(?<B>4\g<A>|5\g<B>|6\g<C>|[07]\g<D>|[18]\g<E>|[29]\g<F>|3\g<G>))(|(?<C>[18]\g<A>|[29]\g<B>|3\g<C>|4\g<D>|5\g<E>|6\g<F>|[07]\g<G>))(|(?<D>5\g<A>|6\g<B>|[07]\g<C>|[18]\g<D>|[29]\g<E>|3\g<F>|4\g<G>))(|(?<E>[29]\g<A>|3\g<B>|4\g<C>|5\g<D>|6\g<E>|[07]\g<F>|[18]\g<G>))(|(?<F>6\g<A>|[07]\g<B>|[18]\g<C>|[29]\g<D>|3\g<E>|4\g<F>|5\g<G>))(|(?<G>3\g<A>|4\g<B>|5\g<C>|6\g<D>|[07]\g<E>|[18]\g<F>|[29]\g<G>)))(?<A>$|[07]\g<A>|[18]\g<B>|[29]\g<C>|3\g<D>|4\g<E>|5\g<F>|6\g<G>)

3
Tôi đã có ý định không cho phép điều đó, nhưng tôi đoán là tôi đã không làm vậy. Điều này cho phép các giải pháp rất ngắn trong các ngôn ngữ Ruby, Perl, PCRE và .NET.
Charles

2
đệ quy làm cho nó trở thành một ngữ pháp không ngữ cảnh (nếu nó có thể quyết định {a*b*|a and b an equal amount of times})
ratchet freak

@ratchet freak: Tôi biết rằng về mặt kỹ thuật này không phải là một biểu thức thông thường, nhưng câu hỏi nói rằng bất kỳ hương vị regex nào cũng được chấp nhận.
Lowjacker

Tôi đã tạo một trình tạo dựa trên bài đăng của bạn để tạo ra các ước tính cho các ước số và cơ sở tùy ý: github.com/ThePlasmaRailgun/DivisibilityRegexes . Nó cũng có tùy chọn để tạo các tệp .jff cho JFLAP.
ThePlasmaRailgun

24

Tôi thực sự ấn tượng với câu trả lời của Griffin và cần phải tìm ra cách nó hoạt động! Kết quả là JavaScript sau đây. (Đó là 3,5k ký tự, ngắn hơn một cách!) genHàm lấy một ước số và cơ sở và tạo một biểu thức chính quy khớp với các số trong cơ sở đã chỉ định chia hết cho ước số đó.

Tôi đã khái quát NFA của Griffin cho bất kỳ cơ sở nào: nfahàm lấy một ước số và cơ sở và trả về một mảng chuyển tiếp hai chiều. Ví dụ, đầu vào cần thiết để đi từ trạng thái 0 đến trạng thái 2 là states[0][2] == "1".

Các reducechức năng có trong statesmảng và chạy nó thông qua thuật toán này để dịch NFA để regex. Các regex được tạo ra là rất lớn và có vẻ như chúng có rất nhiều mệnh đề dư thừa, mặc dù tôi đã cố gắng tối ưu hóa. Regex cho 7 cơ sở 10 dài khoảng ~ 67k ký tự; Firefox ném một "InternalError" cho n> 5 khi cố phân tích regex; chạy regex trên Chrome bắt đầu chậm dần trong n> 6.

Ngoài ra còn có testchức năng lấy regex và cơ sở và chạy nó với các số từ 0 đến 100, vì vậy test(gen(5)) == [0, 5, 10, 15, ...].

Mặc dù kết quả tối ưu, đây là một cơ hội học tập tuyệt vời và tôi hy vọng một số mã này sẽ hữu ích trong tương lai!

function gen(b, base) {
  var states = nfa(b, base)
  for (var i = 0; i < states.length; i++)
    states = reduce(states, i);
  return states[0][0] != 'phi' && new RegExp('^' + wrap(states[0][0]) + '$');
}

function test(reg, base) {
  if (!base)
    base = 10;

  var x = [];
  for (var i = 0; i < 100; i++)
    x.push(i);
  return x.map(function (a) {return a.toString(base)}).filter(reg.test.bind(reg)).map(function (a) {return parseInt(a, base)})
}

function nfa(b, base) {
  if (!base)
    base = 10;

  var states = [];
  for (var i = 0; i < b; i++) {
    states[i] = [];
    for (var j = 0; j < b; j++)
      states[i][j] = [];
  }

  for (var i = 0; i < b; i++)
    for (var n = 0; n < base; n++)
      states[i][(i * base + n) % b].push(n.toString());

  for (var i = 0; i < b; i++)
    for (var j = 0; j < b; j++)
      states[i][j] = states[i][j].length > 1 ? '[' + states[i][j].join('') + ']' : (states[i][j][0] || 'phi');
  return states;
}

// http://www.cs.umbc.edu/~squire/cs451_l7.html
function reduce(states, n) {
  var s = states.length;
  var reduced = [];
  for (var i = 0; i < s; i++) {
    reduced[i] = [];
    for (var j = 0; j < s; j++) {
      // reduced[i][j] = wrap(states[i][n] + wrap(states[n][n]) + '*' + states[n][j] + '|' + states[i][j]);
      reduced[i][j] = '';

      if (states[i][n] == 'phi' || states[n][j] == 'phi') {
        reduced[i][j] = states[i][j];
        continue;
      }

      if (states[i][n] != states[n][n])
        reduced[i][j] += wrap(states[i][n]);

      if (states[n][n] != 'phi') {
        reduced[i][j] += wrap(states[n][n]);

        if (states[i][n] == states[n][n] && states[n][j] == states[n][n])
          reduced[i][j] += wrap(states[n][n]);

        if (states[i][n] == states[n][n] || states[n][j] == states[n][n])
          reduced[i][j] += '+';
        else
          reduced[i][j] += '*';
      }

      if (states[n][j] != states[n][n])
        reduced[i][j] += wrap(states[n][j]);

      reduced[i][j] = states[i][j] == 'phi' ? wrap(reduced[i][j]) : alternate(reduced[i][j], states[i][j]);
    }
  }
  return reduced;
}

function matching(x, open, close) {
  // Test if the parens are actually matching
  if ('(['.indexOf(x.charAt(open)) != -1 && ')]'.indexOf(x.charAt(close)) != -1) {
    var count = 0;
    for (var i = open; i <= close; i++) {
      if ('(['.indexOf(x.charAt(i)) != -1)
        count++;
      else if (')]'.indexOf(x.charAt(i)) != -1) {
        count--;

        if (count == 0)
          return i == close;
      }
    }
  }

  return false;
}

function wrap(x) {
  if (x.length < 2 || matching(x, 0, x.length - 1))
    return x;
  return '(' + x + ')';
}

function optional(cond) {
  if (matching(cond, 0, cond.length - 2)) {
    var op = cond.charAt(cond.length - 1);
    if (op == '+')
      return cond.slice(0, -1) + '*';
    else if (op == '*' || op == '?')
      return cond;
  } else if (matching(cond, 0, cond.length - 1))
    return optional(cond.slice(1, -1));

  return wrap(cond) + '?';
}

function alternate(cond1, cond2) {
  cond2 = wrap(cond2);
  var index = cond1.indexOf(cond2);
  var len = cond2.length;
  var cond = '';

  if (index == 0) {
    var op = cond1.charAt(len);
    if (op == '*')
      cond = cond2 + '+' + optional(cond1.slice(len));
    else if (op == '+')
      cond = cond1;
    else 
      cond = cond2 + optional(cond1.slice(len));
  } else if (index == cond1.length - len)
    cond = optional(cond1.slice(0, index)) + cond2;
  else if (cond1.length == 1 && cond2.length == 1)
    cond = '[' + cond1 + cond2 + ']';
  else
    cond = cond1 + '|' + cond2;

  return wrap(cond);
}

7

Perl / PCRE, 370 ký tự

^(?!$|0.)([07]*(?:[18](?2)|[29](?3)|3(?4)|4(?5)|5(?7)|6(?9)|$))|(5*(?:[07](?4)|[18](?5)|[29](?7)|4(?1)|6(?3)|3(?9)))(3*(?:[18](?1)|[29](?2)|[07](?9)|4(?4)|5(?5)|6(?7)))([18]*(?:[07](?3)|[29](?5)|5(?1)|6(?2)|3(?7)|4(?9)))(6*([29](?1)|[07](?7)|[18](?9)|3(?2)|4(?3)|5(?4)))(4*([07](?2)|[18](?3)|[29](?4)|6(?1)|3(?5)|5(?9)))([29]*([07](?5)|[18](?7)|3(?1)|4(?2)|5(?3)|6(?4)))

Từ chối chuỗi trống, cũng như các chuỗi có số 0 đứng đầu (ngoại trừ "0").


@Charles Đây là PCRE PHP hợp lệ và thực sự hoạt động để xác thực tính phân chia - hãy thử tại đây
cat
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.