Các chức năng không thể tính toán hiệu quả nhưng có thể học được

Chúng ta biết rằng (xem, ví dụ, Định lý 1 và 3 của [1]), nói một cách đại khái, trong các điều kiện phù hợp, các chức năng có thể được tính toán hiệu quả bằng máy Turing trong thời gian đa thức ("tính toán hiệu quả") có thể được biểu thị bằng mạng nơ ron đa thức với kích thước hợp lý và do đó có thể được học với độ phức tạp mẫu đa thức ("có thể học được") dưới bất kỳ phân phối đầu vào nào.

Ở đây "có thể học được" chỉ liên quan đến độ phức tạp của mẫu, bất kể độ phức tạp tính toán.

Tôi đang tự hỏi về một vấn đề liên quan rất chặt chẽ: có tồn tại một hàm không thể tính toán hiệu quả bằng máy Turing trong thời gian đa thức ("không tính toán hiệu quả"), nhưng trong khi đó, có thể học được với độ phức tạp mẫu đa thức ("có thể học được") dưới bất kỳ phân phối đầu vào?

[1] Roi Livni, Shai Shalev-Shwartz, Ohad Shamir, " Về hiệu quả tính toán của mạng lưới thần kinh đào tạo ", 2014

— Chồn
nguồn

Tôi có vấn đề với "và do đó có thể học được". Có các hàm tính toán rất hiệu quả (giả sử, DFA) RẤT khó học, thậm chí xấp xỉ.

— Aryeh

Đây có lẽ là thiếu điểm, nhưng những gì về lớp (nói)

Các hàm Boolean

thiên vị? (Ví dụ, nhiều hơn hoặc ít hơn, một hàm ngẫu nhiên với mỗi giá trị là một cách độc lập

với xác suất

2^{- \sqrt{n}}

$2^{-\sqrt{n}}$

1

$1$

). Đối với bất kỳ

2^{- \sqrt{n}}

$2^{-\sqrt{n}}$

, PAC học theo phân phối đồng đều là tầm thường (0 mẫu cần thiết, hàm hằng

là một giả thuyết tốt), nhưng có vẻ như bất kỳ thuật toán đánh giá nào cũng cần phải sử dụng thời gian siêu đa thức (vì không có cấu trúc cho hàm). Tôi rất có thể hiểu nhầm câu hỏi, mặc dù.

ε > 2^{- \sqrt{n}}

$\varepsilon > 2^{-\sqrt{n}}$

0

$0$

— Clement C.

Thuật ngữ của bạn là một chút bối rối. Khi chúng ta nói rằng có thể học được một cách hiệu quả, thì chúng ta thường đề cập đến hiệu quả tính toán. Chỉ cần nói những gì có thể học được là có thể hiểu được hiệu quả mẫu.

— Lev Reyzin

@Minkov Để PAC học, bạn nên học đối với bất kỳ phân phối nào. Mặt khác, câu hỏi không thú vị (như Clement chỉ ra).

— Lev Reyzin

Tại sao mọi người bỏ phiếu đóng cửa? Tôi nghĩ rằng đây là một câu hỏi sâu sắc và tinh tế!

— Aryeh

Tôi sẽ chính thức hóa một biến thể của câu hỏi này trong đó "hiệu quả" được thay thế bằng "khả năng tính toán".

Hãy $C_n$ là lớp khái niệm của tất cả các ngôn ngữ $L\subseteq\Sigma^*$ dễ nhận biết bởi máy Turing trên $n$ bang hoặc ít hơn. Nói chung, đối với $x\in\Sigma^*$ và $f\in C_n$ , vấn đề đánh giá $f(x)$ là undecidable.

Tuy nhiên, giả sử chúng ta có thể vào (thích hợp, có thể thực hiện) PAC-learning oracle $A$ cho $C_n$ . Đó là, đối với bất kỳ $\epsilon,\delta>0$ , nhà tiên tri yêu cầu một mẫu nhãn kích thước $m_0(n,\epsilon,\delta)$ như vậy mà, giả sử một mẫu ví dụ được rút ra iid từ một phân phối chưa biết $D$ , oracle $A$ kết quả đầu ra một giả thuyết đó, với xác suất ít nhất , có $\hat f\in C_n$ $1-\delta$ $D$ lỗi -generalization không quá $\epsilon$ . Chúng tôi sẽ chỉ ra rằng nhà tiên tri này không phải là Turing có thể tính toán được.

Trên thực tế, chúng tôi sẽ cho thấy một vấn đề đơn giản là không thể quyết định: Một trong những quyết định, đưa ra một mẫu nhãn $S$ , liệu có tồn tại một $f\in C_n$ phù hợp với $S$ . Giả sử (để có một mâu thuẫn) rằng $K$ là một máy Turing quyết định vấn đề nhất quán.

Chúng tôi thực hiện các quy ước công chứng sau đây. Xác định $\Sigma^*$ với $\mathbb{N}=\{0,1,2,\ldots\}$ qua thứ tự tự từ điển thông thường. Đối với $x\in\{0,1\}^*$ , chúng ta nói rằng một TM $M$ "S-in" $x$ nếu nó chấp nhận tất cả các chuỗi trong $\Sigma^*$ tương ứng với chỉ số $i$ st $x_i=1$ và không chấp nhận (có thể bằng cách không tạm dừng) bất kỳ chuỗi nào tương ứng với các chỉ số . Kể từ (theo giả thiết) là decidable, nó sau đó chức năng $x_i=0$ $K$ $\tilde K:x\mapsto k$ , được xác định là nhỏ nhất $k$ đến nỗi một số TM trong $C_k$ S-in $x$ , là Turing-tính toán. Nó tiếp tục sau đó chức năng $g:k\mapsto x$ , mà bản đồ một $k\in\mathbb{N}$ đến (thứ tự từ điển) chuỗi ít nhất $x\in\{0,1\}^*$ mà $\tilde K(x)>k$ , cũng có thể tính toán được.

Bây giờ xác định TM $M$ như sau: $M$ S-in $g(|\langle M\rangle|)$ , nơi $\langle M\rangle$ là mã hóa của $M$ , $|x|$ biểu thị độ dài chuỗi và định lý đệ quy đang được gọi để khẳng định sự tồn tại của một $M$ như vậy . Sau đó $M$ có một số chiều dài mã hóa, $\ell=|\langle M\rangle|$ , Và nó s-in một số chuỗi, $x_M\in\{0,1\}^*$ . Bằng cách xây dựng, $\tilde K(x_M)>\ell$ , và do đó $x_M$ không thể là S-in bằng bất kỳ TM với chiều dài mô tả $\ell$ hoặc ngắn hơn. Tuy nhiên, nó được định nghĩa là đầu ra in S của một TM có độ dài mô tả $\ell$ --- một mâu thuẫn.

— Aryeh
nguồn

Thách thức: chuyển đổi đối số "vô hạn" của tôi thông qua khả năng tính toán thành một đối số hữu hạn thông qua hiệu quả. Tôi nghĩ rằng câu trả lời cho câu hỏi của @ chồn là tiêu cực: Bạn không thể học một cách hiệu quả một lớp chức năng mà bạn không thể đánh giá một cách hiệu quả. Tôi nghĩ điều này sẽ tiếp tục đúng nếu bạn vượt ra ngoài PAC phù hợp hoặc có thể thực hiện được.

— Aryeh