Regex xác nhận regex [đã đóng]

Đóng cửa. Câu hỏi này không đúng chủ đề . Nó hiện không chấp nhận câu trả lời.

Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó thuộc chủ đề cho Code Golf Stack Exchange.

Đóng cửa năm ngoái .

Xây dựng một regex sẽ chấp nhận một chuỗi regex làm đầu vào và kiểm tra xem nó có hợp lệ không. Về cơ bản, regex của bạn sẽ có thể xác nhận chính nó. (Bất kỳ regex không hợp lệ nào sẽ không được xác thực, vì vậy bạn không thể sử dụng .*.;))

Hương vị của bạn phải được hỗ trợ đầy đủ bởi các triển khai nổi tiếng (Perl, sed, grep, gawk, v.v.) và nó phải hỗ trợ đầy đủ những gì các triển khai đó hỗ trợ. [Đừng lo lắng về luật sư nói; Tôi chỉ đang cố gắng để loại bỏ bất kỳ sơ hở có thể có cho *** thông minh.]

Tôi mã hóa nó, nhưng tôi lo lắng nó sẽ mang lại lợi thế cho những người biết và sử dụng các hương vị không giàu tính năng. Hay những lo lắng của tôi là vô căn cứ?

code-challenge code-golf code-golf game sudoku code-challenge math ai-player code-challenge sorting rosetta-stone code-challenge code-challenge programming-puzzle code-golf number code-golf maze code-golf math regular-expression code-golf sequence code-golf graph-theory code-golf string word-puzzle natural-language brainfuck metagolf optimized-output fastest-algorithm code-golf game-of-life cellular-automata code-golf puzzle-solver grid code-golf combinatorics binary-tree popularity-contest code-challenge code-golf ascii-art kolmogorov-complexity brainfuck metagolf code-golf c date code-golf word-puzzle crossword word-search code-golf code-golf quine code-golf string random

— Mateen Ulhaq
nguồn

không thể, các dấu ngoặc lồng tùy ý làm cho một biểu thức ngữ pháp không có ngữ cảnh, (thay thế nó bằng một ký hiệu đánh bóng cũng cần một ngăn xếp)

— ratchet freak

@ratchet Augh, bạn có thể đúng.

— Mateen Ulhaq

một số tiện ích mở rộng trên các ngôn ngữ thông thường tồn tại có thể cho phép khớp với dấu ngoặc nhưng tôi không biết cách thực hiện

— ratchet freak

Điều đó chắc chắn là có thể với các biểu thức Perl.

— Peter Taylor

@BrianVandenberg các biểu thức chính quy được triển khai trong các ngôn ngữ hiện đại hầu như đều không đều đặn ... ngay khi bạn thêm phản hồi, bạn có thể khớp các ngôn ngữ không thông thường. Hơn nữa, cả Perl / PCRE và .NET đều đủ mạnh để khớp chính xác.

— Martin Ender

Hồng ngọc

Tôi đã cố gắng khớp với cú pháp thực tế của hương vị regex của Ruby càng nhiều càng tốt, nhưng có một vài điều kỳ quặc: nó chấp nhận một vài cái nhìn thực sự không hợp lệ (như (?<=(?<!))) và nó nhận ra phạm vi ký tự trống như thế nào D-A. Cái sau có thể được sửa cho ASCII, nhưng regex đủ dài.

\A(?<main>
    (?!
        \{(\d+)?,(\d+)?\} # do not match lone counted repetition
    )
    (?:
        [^()\[\]\\*+?|<'] | # anything but metacharacters
        (?<cclass>
            \[ \^? (?: # character class
                (?: # character class
                    [^\[\]\\-] | # anything but square brackets,  backslashes or dashes
                    \g<esc> |
                    \[ : \^? (?: # POSIX char-class
                        alnum | alpha | word | blank | cntrl | x?digit | graph | lower | print | punct | space | upper
                    ) : \] |
                    - (?!
                        \\[dwhsDWHS]
                    ) # range / dash not succeeded by a character class
                )+ |
                \g<cclass> # more than one bracket as delimiter
            ) \]
        ) |
        (?<esc>
            \\[^cuxkg] | # any escaped character
            \\x \h\h? | # hex escape
            \\u \h{4} | # Unicode escape
            \\c . # control escape
        ) |
        \\[kg] (?:
            < \w[^>]* (?: > | \Z) |
            ' \w[^']* (?: ' | \Z)
        )? | # named backrefs
        (?<! (?<! \\) \\[kg]) [<'] | # don't match < or ' if preceded by \k or \g
        \| (?! \g<rep> ) | # alternation
        \( (?: # group
            (?:
                \?
                (?:
                    [>:=!] | # atomic / non-capturing / lookahead
                    (?<namedg>
                        < [_a-zA-Z][^>]* > |
                        ' [_a-zA-Z][^']* ' # named group
                    ) |
                    [xmi-]+: # regex options
                )
            )?
            \g<main>*
        ) \) |
        \(\?<[!=] (?<lbpat>
            (?! \{(\d+)?,(\d+)?\} )
            [^()\[\]\\*+?] |
            \g<esc>  (?<! \\[zZ]) |
            \g<cclass> |
            \( (?: # group
                (?:
                    \?: |
                    \? \g<namedg> |
                    \? <[!=]
                )?
                \g<lbpat>*
            ) \) |
            \(\?\# [^)]* \)
        )* \)
        |
        \(\? [xmi-]+ \) # option group
        (?! \g<rep> ) 
        |
        \(\?\# [^)]*+ \) # comment
        (?! \g<rep> )
    )+
    (?<rep>
        (?:
            [*+?] | # repetition
            \{(\d+)?,(\d+)?\} # counted repetition
        )
        [+?]? # with a possessive/lazy modifier
    )?
)*\Z

Phiên bản không thể đọc được:

\A(?<main>(?!\{(\d+)?,(\d+)?\})(?:[^()\[\]\\*+?|<']|(?<cclass>\[\^?(?:(?:[^\[\]\\-]|\g<esc>|\[:\^?(?:alnum|alpha|word|blank|cntrl|x?digit|graph|lower|print|punct|space|upper):\]|-(?!\\[dwhsDWHS]))+|\g<cclass>)\])|(?<esc>\\[^cuxkg]|\\x\h\h?|\\u\h{4}|\\c.)|\\[kg](?:<\w[^>]*(?:>|\Z)|'\w[^']*(?:'|\Z))?|(?<!(?<!\\)\\[kg])[<']|\|(?!\g<rep>)|\((?:(?:\?(?:[>:=!]|(?<namedg><[_a-zA-Z][^>]*>|'[_a-zA-Z][^']*')|[xmi-]+:))?\g<main>*)\)|\(\?<[!=](?<lbpat>(?!\{(\d+)?,(\d+)?\})[^()\[\]\\*+?]|\g<esc>(?<!\\[zZ])|\g<cclass>|\((?:(?:\?:|\?\g<namedg>|\?<[!=])?\g<lbpat>*)\)|\(\?#[^)]*\))*\)|\(\?[xmi-]+\)(?!\g<rep>)|\(\?#[^)]*+\)(?!\g<rep>))+(?<rep>(?:[*+?]|\{(\d+)?,(\d+)?\})[+?]?)?)*\Z

— Lowjacker
nguồn

Cả hai không phải là phiên bản không thể đọc được?

— Kibbee

@Kibbee Cái đầu tiên có thể đọc được một cách hợp lý nếu bạn biết rõ về regex.

— Lowjacker

Làm thế nào để đảm bảo rằng không có phản hồi số không hợp lệ?

— Martin Ender

Tôi đoán nó không. Sau đó, một lần nữa, đó không phải là giới hạn duy nhất mà nó có (xem ở trên). Một số điều có thể được sửa chữa, nhưng regex sẽ trở nên dài một cách lố bịch.

— Lowjacker