Có tồn tại một phần mở rộng của các biểu thức chính quy nắm bắt các ngôn ngữ tự do ngữ cảnh không?

25

Trong nhiều bài viết liên quan đến ngữ pháp không ngữ cảnh (CFG), các ví dụ về các ngữ pháp như vậy được trình bày thường thừa nhận các đặc điểm dễ dàng của ngôn ngữ mà chúng tạo ra. Ví dụ:

$S \to a a S b$
$S \to$

tạo , $\{ a^{2i} b^i | i \geq 0\}$

$S \to a S b$
$S \to a a S b$
$S \to$

tạo , và $\{ a^i b^j \mid i \geq j \geq 0 \}$

$S \to a S a$
$S \to b S b$
$S \to$

tạo hoặc tương đương (trong đó đề cập đến phần được chụp bởi ). $\{ w w^R \mid w \in (a|b)^* \}$ $\{ ((a|b)^*)_1 ((a|b)^*)_2 \mid p_1 = p_2^R \}$ $p_1$ $(...)_1$

Tất cả các ví dụ trên có thể được tạo bằng cách thêm các chỉ mục ( ), các ràng buộc đơn giản trên các chỉ số này ( ) và khớp mẫu với các biểu thức thông thường. Điều này khiến tôi tự hỏi liệu tất cả các ngôn ngữ không ngữ cảnh có thể được tạo bởi một số phần mở rộng của các biểu thức thông thường. $a^i$ $i > j$

Có một phần mở rộng của các biểu thức chính quy có thể tạo ra tất cả hoặc một số tập hợp con quan trọng của các ngôn ngữ tự do ngữ cảnh không?

fl.formal-languages context-free context-free-languages

— Alex mười Brink
nguồn

3

Quan sát rằng việc thêm các chỉ mục và ràng buộc quá mạnh: bạn sẽ có thể xác định , không phải là CFL.

a^{n} b^{n} c^{n}

$a^nb^nc^n$

— Shaull 17/03/13

34

Có, có. Xác định một biểu thức không ngữ cảnh là một thuật ngữ được tạo bởi ngữ pháp sau:

\begin{array}{lcll} g & ::= & ϵ & Empty string \\ | & c & Character c in alphabet Σ \\ | & g \cdot g & Concatenation \\ | & ⊥ & Failing pattern \\ | & g \lor g & Disjunction \\ | & μ α . g & Recursive grammar expression \\ | & α & Variable expression \end{array}

$\begin{array}{lcll} g & ::= & \epsilon & \mbox{Empty string}\\ & | & c & \mbox{Character $c$ in alphabet $\Sigma$} \\ & | & g \cdot g & \mbox{Concatenation} \\ & | & \bot & \mbox{Failing pattern} \\ & | & g \vee g & \mbox{Disjunction}\\ & | & \mu \alpha.\; g & \mbox{Recursive grammar expression} \\ & | & \alpha & \mbox{Variable expression} \end{array}$

Đây là tất cả các hàm tạo cho các ngôn ngữ thông thường trừ ngôi sao Kleene, được thay thế bằng toán tử điểm cố định chung và cơ chế tham chiếu biến. (Không cần sao Kleene, vì nó có thể được định nghĩa là .) $\mu \alpha.\;g$ $g\ast \triangleq \mu \alpha.\;\epsilon \vee g\cdot\alpha$

Việc giải thích một biểu thức không ngữ cảnh đòi hỏi phải có kế toán cho việc giải thích các biến miễn phí. Vì vậy, hãy xác định một môi trường là ánh xạ từ các biến sang ngôn ngữ (nghĩa là các tập hợp con của ) và để là hàm hoạt động như trên tất cả các đầu vào trừ và trả về ngôn ngữ cho . $\rho$ $\Sigma^*$ $[\rho|\alpha:L]$ $\rho$ $\alpha$ $L$ $\alpha$

Bây giờ, xác định cách giải thích của biểu thức không ngữ cảnh như sau:

\begin{array}{lcl} [[ϵ]] ρ & = & {ϵ} \\ [[c]] ρ & = & {c} \\ [[g_{1} \cdot g_{2}]] ρ & = & {w_{1} \cdot w_{2} ∣ | w_{1} \in [[g_{1}]] ρ \land w_{2} \in [[g_{2}]] ρ} \\ [[⊥]] ρ & = & \emptyset \\ [[g_{1} \lor g_{2}]] ρ & = & [[g_{1}]] ρ \cup [[g_{2}]] ρ \\ [[α]] ρ & = & ρ (α) \\ [[μ α . g]] ρ & = & ⋃_{n \in N} L_{n} \\ where \\ L_{0} & = & \emptyset \\ L_{n + 1} & = & L_{n} \cup [[g]] [ρ | α : L_{n}] \end{array}

$\newcommand{\interp}[2]{[\![{#1}]\!]\;{#2}} \newcommand{\setof}[1]{\left\{#1\right\}} \newcommand{\comprehend}[2]{\setof{{#1}\;\mid|\;{#2}}} \begin{array}{lcl} \interp{\epsilon}{\rho} & = & \setof{\epsilon} \\ \interp{c}{\rho} & = & \setof{c} \\ \interp{g_1\cdot g_2}{\rho} & = & \comprehend{w_1 \cdot w_2}{w_1 \in \interp{g_1}{\rho} \land w_2 \in \interp{g_2}{\rho}} \\ \interp{\bot}{\rho} & = & \emptyset \\ \interp{g_1 \vee g_2}{\rho} & = & \interp{g_1}{\rho} \cup \interp{g_2}{\rho} \\ \interp{\alpha}{\rho} & = & \rho(\alpha) \\ \interp{\mu \alpha.\; g}{\rho} & = & \bigcup_{n \in \mathbb{N}} L_n \\ \mbox{where} & & \\ L_0 & = & \emptyset \\ L_{n+1} & = & L_n \cup \interp{g}{[\rho|\alpha:L_n]} \end{array}$

Sử dụng định lý Knaster-Tarski, thật dễ dàng để thấy rằng việc giải thích là ít cố định nhất của biểu thức. $\mu \alpha.g$

Thật đơn giản (mặc dù không hoàn toàn tầm thường) để cho thấy rằng bạn có thể đưa ra một biểu thức không ngữ cảnh xuất phát cùng ngôn ngữ như bất kỳ ngữ pháp không ngữ cảnh nào và ngược lại. Tính không tầm thường phát sinh từ thực tế là các biểu thức không ngữ cảnh đã lồng các điểm cố định và các ngữ pháp không ngữ cảnh cung cấp cho bạn một điểm cố định duy nhất trên một tuple. Điều này đòi hỏi phải sử dụng bổ đề của Bekic, nói chính xác rằng một điểm cố định lồng nhau có thể được chuyển đổi thành một điểm cố định duy nhất trên một sản phẩm (và ngược lại). Nhưng đó là sự tinh tế duy nhất.

EDIT: Không, tôi không biết một tài liệu tham khảo tiêu chuẩn cho việc này: Tôi đã làm việc đó vì lợi ích của riêng tôi. Tuy nhiên, đó là một công trình đủ rõ ràng mà tôi tin rằng nó đã được phát minh trước đó. Một số Googling bình thường tiết lộ Joost Winter, Marcello Bonsangue và Jan Rutten, bài viết gần đây về Ngôn ngữ không ngữ cảnh, Coasmularical , trong đó họ đưa ra một biến thể của định nghĩa này (yêu cầu tất cả các điểm cố định được bảo vệ) mà họ cũng gọi là các biểu thức không ngữ cảnh.

— Neel Krishnaswami
nguồn

Điều này là khá tuyệt vời. Có một tên tiêu chuẩn hoặc tài liệu tham khảo cho điều này?

— Alex ten Brink

5

Arto Salomaa trình bày điều này trong cuốn sách Ngôn ngữ chính thức của mình vào năm 1973. Ông gọi chúng là Biểu hiện giống như thường xuyên.

— Tim Schaeffer

3

Có một câu hỏi liên quan chặt chẽ (và một số câu trả lời) trên MathOverflow về các ngôn ngữ có chức năng tạo ra là toàn diện .

Thật thú vị, định nghĩa của Neel về ngữ nghĩa của ở trên tương ứng chính xác với bằng chứng (mang tính xây dựng) về sự tồn tại của các giải pháp Loài cho phương trình đệ quy thông qua định lý Loài ẩn. Thật không may, phác thảo bằng chứng của anh ta cũng phải chứa một sai lầm tinh vi, vì có những trường hợp mọi thứ trở nên 'vô tận'. Nói cách khác, có một điều kiện đối với Jacobian về sự biến đổi được xác định bởi ngữ pháp là không số ít cần thiết. Đây có lẽ là lý do tại sao Bonsangue-Rutten yêu cầu các điểm cố định được bảo vệ, như một cách để đảm bảo tình trạng này trên Jacobian. $\mu$

— Jacques Carette
nguồn

AFAICT, Winter et al chỉ yêu cầu sự cảnh giác để đảm bảo bạn có thể lấy đạo hàm Brzozowski của bằng cách lấy đạo hàm của .

μ α . g

$\mu\alpha.\;g$

[μ α . g / α] g

$[\mu\alpha.\;g/\alpha]g$

— Neel Krishnaswami

1

Gần đây chúng tôi đã xuất bản các phác thảo của một khung sẽ làm điều đó. Xem bên dưới comp.compilers , nơi tôi đã gửi thông báo cùng với một số liên kết.

Những phát triển mới hoạt động dựa trên Định lý Chomsky-Schuetzenberger và có thể được coi là sự hoàn thành của kết quả này. Chomsky, bản thân anh, đã được thông báo về sự phát triển và cho thấy mong muốn "bắt kịp".

Cùng với sự phát triển này, chúng tôi cũng thiết lập sự tương đương của hai công thức riêng biệt cho các biểu thức không ngữ cảnh - một công thức là phần mở rộng / hoàn thành của mẫu tính toán "điểm cố định ít nhất" (ban đầu bởi Gruska, Yntema và McWhirter) - đã nhận được một công thức cuối cùng của năm 2014 - và công thức khác được xuất bản vào năm 2008.

— NinjaDarth
nguồn

4

Vui lòng bao gồm tất cả các thông tin có liên quan trong câu trả lời chính nó. Bây giờ, hãy nhìn vào comp.compilers. Đây là một câu trả lời không hữu ích, và nó sẽ hoàn toàn vô dụng trong một vài tháng.

— Emil Jeřábek hỗ trợ Monica

Điều đó hoàn toàn sai. Nhân tiện, Comp.compilers (không giống như trang này và các blog khác) được lưu trữ vĩnh viễn. Ở đó bạn sẽ tìm thấy tất cả các chi tiết bạn cần. Có rất nhiều liên kết có thể được tìm thấy ở đó, trong bài viết được đăng gần đây nhất. Ngoài ra, không giống như các trang blog, nó được mở ra bên ngoài và hữu ích cho đối tượng rộng hơn nhiều. Bạn sẽ không gặp khó khăn trong việc tìm kiếm bất cứ điều gì trên USENET - đó là nơi các truy vấn như thế này sẽ được giải quyết và thảo luận. Nếu bạn gặp khó khăn, đây là liên kết. Groups.google.com/forum/#!topic/comp.compilers/YCa5jHUR1iQ

— NinjaDarth

2

Vấn đề không phải là nó không được lưu trữ, mà là tài liệu lưu trữ rất lớn. Khi tôi tra cứu tài liệu lưu trữ bây giờ tôi có thể tìm thấy bài đăng của bạn ở đâu đó gần đầu trang, nhưng khi ai đó sẽ thấy câu trả lời này trong vài tháng hoặc vài năm tới, họ sẽ không biết bắt đầu đào ở đâu. Thật kiêu ngạo và thô lỗ khi khiến độc giả thực hiện một tìm kiếm dài và không đáng tin cậy khi bạn có thể chỉ cho họ đến một địa điểm cụ thể hơn. Bây giờ, tôi đã làm điều đó cho bạn. Phải mất 30 giây. Bạn có thể tự làm điều đó.

— Emil Jeřábek hỗ trợ Monica