Kết quả của Cybenko khá trực quan, như tôi hy vọng truyền đạt dưới đây; Điều khiến mọi thứ trở nên khó khăn hơn là anh ta đã nhắm cả vào tính tổng quát, cũng như một số lượng tối thiểu các lớp ẩn. Kết quả của Kolmogorov (được đề cập bởi vzn) trên thực tế đạt được sự bảo đảm mạnh mẽ hơn, nhưng có phần ít liên quan đến học máy hơn (đặc biệt là nó không xây dựng một mạng lưới thần kinh tiêu chuẩn, vì các nút không đồng nhất); lần lượt kết quả này rất đáng ngại vì trên bề mặt nó chỉ có 3 trang ghi lại một số giới hạn và chức năng liên tục, nhưng thực tế nó đang xây dựng một tập hợp các fractals. Mặc dù kết quả của Cybenko là không bình thường và rất thú vị do các kỹ thuật chính xác mà anh ta sử dụng, kết quả của hương vị đó được sử dụng rất rộng rãi trong học máy (và tôi có thể chỉ cho bạn những người khác).
Dưới đây là một bản tóm tắt cấp cao về lý do tại sao kết quả của Cybenko nên giữ.
- Một hàm liên tục trên một tập hợp nhỏ gọn có thể được xấp xỉ bằng một hàm hằng số piecewise.
- Một hàm hằng số piecewise có thể được biểu diễn dưới dạng một mạng lưới thần kinh như sau. Đối với mỗi vùng có hàm không đổi, hãy sử dụng mạng nơ ron làm hàm chỉ thị cho vùng đó. Sau đó, xây dựng một lớp cuối cùng với một nút duy nhất, có tổ hợp tuyến tính đầu vào là tổng của tất cả các chỉ số, với trọng số bằng giá trị không đổi của vùng tương ứng trong hàm hằng số piecewise ban đầu.
Về điểm đầu tiên ở trên, điều này có thể được coi là tuyên bố "một hàm liên tục trên một tập hợp nhỏ gọn là liên tục". Điều này có ý nghĩa gì với chúng tôi là bạn có thể thực hiện chức năng liên tục của mình trong và một số lỗi mục tiêu , sau đó bạn có thể chia lưới ở tỷ lệ (kết thúc với khoảng subcubes) sao cho một hàm không đổi trên mỗi subcube nằm trong của hàm đích. ε > 0 [ 0 , 1 ] d τ > 0 ( 1 / τ ) d ε[ 0 , 1 ]dϵ > 0[ 0 , 1 ]dτ> 0( 1 / τ)dε
Bây giờ, một mạng lưới thần kinh không thể biểu diễn chính xác một chỉ báo, nhưng bạn có thể tiến rất gần. Giả sử "hàm truyền" là một sigmoid. (Hàm truyền là hàm liên tục bạn áp dụng cho tổ hợp đầu vào tuyến tính để lấy giá trị của nút mạng thần kinh.) Sau đó, bằng cách làm cho trọng số rất lớn, bạn xuất ra giá trị gần bằng 0 hoặc gần 1 để có thêm đầu vào. Điều này phù hợp với sự phát triển của Cybenko: lưu ý rằng anh ta cần các hàm liên quan bằng 0 hoặc 1 trong giới hạn: theo định nghĩa giới hạn, bạn hiểu chính xác những gì tôi đang nói, nghĩa là bạn đẩy mọi thứ tùy ý gần 0 hoặc 1.
(Tôi đã bỏ qua hàm truyền trong lớp cuối cùng, nếu nó ở đó và liên tục, thì chúng ta có thể điều chỉnh mọi thứ ánh xạ thành bằng cách thay thế các trọng số không đổi bằng một thứ gì đó trong hình ảnh nghịch đảo của hằng số đó theo chuyển chức năng.)[ 0 , 1 ]
Lưu ý rằng ở trên dường như có một vài lớp: giả sử, 2 để xây dựng các chỉ số trên các hình khối, và sau đó là một lớp đầu ra cuối cùng. Cybenko đã cố gắng cho hai điểm chung: số lượng lớp ẩn tối thiểu và tính linh hoạt trong việc lựa chọn chức năng chuyển. Tôi đã mô tả làm thế nào anh ta làm việc linh hoạt trong chức năng chuyển.
Để có được số lớp tối thiểu, anh ta tránh việc xây dựng ở trên, và thay vào đó sử dụng phân tích chức năng để phát triển mâu thuẫn. Đây là một bản phác thảo của cuộc tranh luận.
Nút cuối cùng tính toán kết hợp tuyến tính của các phần tử của lớp bên dưới nó và áp dụng hàm truyền cho nó. Sự kết hợp tuyến tính này là sự kết hợp tuyến tính của các hàm, và như vậy, chính nó là một hàm, một hàm trong một số không gian con của các hàm, được kéo dài bởi các nút có thể trong lớp ẩn.
Một không gian con của các hàm giống như một không gian con chiều hữu hạn thông thường, với sự khác biệt chính là nó có khả năng không phải là một tập đóng; đó là lý do tại sao tất cả các đối số của cybenko đều đóng cửa không gian con đó. Chúng tôi đang cố gắng chứng minh rằng việc đóng cửa này chứa tất cả các chức năng liên tục; điều đó có nghĩa là chúng ta tùy ý gần với tất cả các hàm liên tục.
Nếu không gian chức năng là đơn giản (một không gian Hilbert), chúng ta có thể tranh luận như sau. Chọn một số hàm liên tục đích được cho là không nằm trong không gian con và chiếu nó lên phần bù trực giao của không gian con. Phần dư này phải là khác không. Nhưng vì không gian con của chúng ta có thể đại diện cho những thứ như các khối nhỏ ở trên, chúng ta có thể tìm thấy một số vùng còn lại này, khớp một khối nhỏ với nó (như trên), và do đó tiến gần hơn đến chức năng mục tiêu của chúng ta. Đây là một mâu thuẫn vì các phép chiếu chọn các yếu tố tối thiểu. (Lưu ý, tôi sẽ để lại một cái gì đó ở đây: Đối số của Cybenko không xây dựng bất kỳ hình khối nhỏ nào, anh ta cũng xử lý điều này một cách tổng quát; đây là nơi anh ta sử dụng một dạng của định lý biểu diễn Riesz và các thuộc tính của các hàm truyền (nếu tôi nhớ chính xác, có một bổ đề riêng cho bước này,
Chúng ta không ở trong một không gian Hilbert, nhưng chúng ta có thể sử dụng định lý Hahn-Banach để thay thế bước chiếu ở trên (lưu ý, chứng minh Hahn-Banach sử dụng tiên đề của sự lựa chọn).
Bây giờ tôi muốn nói một vài điều về kết quả của Kolmogorov. Mặc dù kết quả này rõ ràng không cần loại nền tảng của Cybenko, nhưng cá nhân tôi nghĩ rằng nó đáng sợ hơn nhiều.
Đây là lý do tại sao. Kết quả của Cybenko là một sự đảm bảo gần đúng : không nói chúng ta có thể đại diện chính xác cho bất cứ điều gì. Mặt khác, kết quả của Kolmogorov là cung cấp một sự bình đẳng . Nực cười hơn, nó nói kích thước của mạng: bạn chỉ cần các nút . Để đạt được sự tăng cường này, tất nhiên có một nhược điểm, một điều tôi đã đề cập ở trên: mạng là không đồng nhất, ý tôi là tất cả các hàm truyền đều không giống nhau.Ô ( d2)
Được rồi, vì vậy với tất cả điều đó, làm thế nào điều này có thể làm việc?!
Chúng ta hãy quay trở lại hình khối của chúng tôi ở trên. Lưu ý rằng chúng tôi phải nướng ở mức độ chính xác: với mỗi , chúng tôi phải quay lại và chọn một tinh tế hơn . Vì chúng tôi đang làm việc với các tổ hợp chỉ báo tuyến tính (hữu hạn), chúng tôi không bao giờ đại diện chính xác cho bất cứ điều gì. (mọi thứ chỉ trở nên tồi tệ hơn nếu bạn bao gồm các hiệu ứng gần đúng của sigmoids.)τ > 0ϵ > 0τ> 0
Vậy giải pháp là gì? Vâng, làm thế nào về chúng ta xử lý tất cả các quy mô đồng thời? Tôi không làm điều này: bằng chứng của Kolmogorov đang xây dựng một cách hiệu quả lớp ẩn dưới dạng một tập hợp các fractals. Nói một cách khác, về cơ bản, chúng là các đường cong lấp đầy không gian ánh xạ đến ; theo cách này, mặc dù chúng ta có sự kết hợp của các hàm đơn biến, chúng ta có thể phù hợp với bất kỳ hàm đa biến nào. Trên thực tế, bạn có thể lý giải theo lý thuyết rằng là "chính xác" thông qua một đối số đếm vô lý: chúng ta đang viết một hàm liên tục từ đến thông qua các hàm liên tục đơn biến và do đó, để nắm bắt tất cả các tương tác phối hợp, chúng ta cần[ 0 , 1 ] d O ( d 2 ) R d R O ( d 2 )[0,1][0,1]dO(d2)RdRO(d2) chức năng...
Lưu ý rằng kết quả của Cybenko, do chỉ sử dụng một loại chức năng chuyển, có liên quan nhiều hơn đến học máy. Các định lý kiểu này rất phổ biến trong học máy (vzn đã đề xuất điều này trong câu trả lời của anh ấy, tuy nhiên anh ấy đã đề cập đến kết quả của Kolmogorov, ít được áp dụng do các chức năng chuyển tùy chỉnh; điều này bị suy yếu trong một số phiên bản lạ hơn của kết quả Kolmogorov (được sản xuất bởi các tác giả khác), nhưng những người vẫn liên quan đến fractals, và ít nhất hai chức năng chuyển giao).
Tôi có một số slide về các chủ đề này, mà tôi có thể đăng nếu bạn quan tâm (hy vọng ít rầm rộ hơn ở trên, và có một số hình ảnh; tuy nhiên tôi đã viết chúng trước khi tôi thành thạo với Hahn-Banach). Tôi nghĩ cả hai bằng chứng đều rất, rất hay. (Ngoài ra, tôi có một câu trả lời khác ở đây về các chủ đề này, nhưng tôi đã viết nó trước khi tôi làm hỏng kết quả của Kolmogorov.)