Định lý xấp xỉ phổ quát - Mạng lưới thần kinh


23

Tôi đã đăng bài này sớm hơn trên MSE, nhưng có ý kiến ​​cho rằng đây có thể là một nơi tốt hơn để hỏi.

Định lý xấp xỉ phổ quát nói rằng "mạng chuyển tiếp thức ăn đa lớp tiêu chuẩn với một lớp ẩn duy nhất, chứa số lượng nơ-ron ẩn hữu hạn, là một xấp xỉ phổ biến giữa các hàm liên tục trên các tập con nhỏ gọn của Rn, theo các giả định nhẹ về chức năng kích hoạt."

Tôi hiểu điều này có nghĩa là gì, nhưng các bài báo liên quan quá xa mức độ hiểu biết toán học của tôi để hiểu tại sao nó đúng hoặc làm thế nào một lớp ẩn xấp xỉ các hàm phi tuyến tính.

Vì vậy, về mặt nâng cao hơn một chút so với tính toán cơ bản và đại số tuyến tính, làm thế nào để một mạng chuyển tiếp với một lớp ẩn xấp xỉ các hàm phi tuyến tính? Câu trả lời không nhất thiết phải hoàn toàn cụ thể.



Tôi thấy bằng chứng trực quan của michael nielsen khá hữu ích
Mr Tsjolder

Câu trả lời:


26

Kết quả của Cybenko khá trực quan, như tôi hy vọng truyền đạt dưới đây; Điều khiến mọi thứ trở nên khó khăn hơn là anh ta đã nhắm cả vào tính tổng quát, cũng như một số lượng tối thiểu các lớp ẩn. Kết quả của Kolmogorov (được đề cập bởi vzn) trên thực tế đạt được sự bảo đảm mạnh mẽ hơn, nhưng có phần ít liên quan đến học máy hơn (đặc biệt là nó không xây dựng một mạng lưới thần kinh tiêu chuẩn, vì các nút không đồng nhất); lần lượt kết quả này rất đáng ngại vì trên bề mặt nó chỉ có 3 trang ghi lại một số giới hạn và chức năng liên tục, nhưng thực tế nó đang xây dựng một tập hợp các fractals. Mặc dù kết quả của Cybenko là không bình thường và rất thú vị do các kỹ thuật chính xác mà anh ta sử dụng, kết quả của hương vị đó được sử dụng rất rộng rãi trong học máy (và tôi có thể chỉ cho bạn những người khác).

Dưới đây là một bản tóm tắt cấp cao về lý do tại sao kết quả của Cybenko nên giữ.

  • Một hàm liên tục trên một tập hợp nhỏ gọn có thể được xấp xỉ bằng một hàm hằng số piecewise.
  • Một hàm hằng số piecewise có thể được biểu diễn dưới dạng một mạng lưới thần kinh như sau. Đối với mỗi vùng có hàm không đổi, hãy sử dụng mạng nơ ron làm hàm chỉ thị cho vùng đó. Sau đó, xây dựng một lớp cuối cùng với một nút duy nhất, có tổ hợp tuyến tính đầu vào là tổng của tất cả các chỉ số, với trọng số bằng giá trị không đổi của vùng tương ứng trong hàm hằng số piecewise ban đầu.

Về điểm đầu tiên ở trên, điều này có thể được coi là tuyên bố "một hàm liên tục trên một tập hợp nhỏ gọn là liên tục". Điều này có ý nghĩa gì với chúng tôi là bạn có thể thực hiện chức năng liên tục của mình trong và một số lỗi mục tiêu , sau đó bạn có thể chia lưới ở tỷ lệ (kết thúc với khoảng subcubes) sao cho một hàm không đổi trên mỗi subcube nằm trong của hàm đích. ε > 0 [ 0 , 1 ] d τ > 0 ( 1 / τ ) d ε[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ

Bây giờ, một mạng lưới thần kinh không thể biểu diễn chính xác một chỉ báo, nhưng bạn có thể tiến rất gần. Giả sử "hàm truyền" là một sigmoid. (Hàm truyền là hàm liên tục bạn áp dụng cho tổ hợp đầu vào tuyến tính để lấy giá trị của nút mạng thần kinh.) Sau đó, bằng cách làm cho trọng số rất lớn, bạn xuất ra giá trị gần bằng 0 hoặc gần 1 để có thêm đầu vào. Điều này phù hợp với sự phát triển của Cybenko: lưu ý rằng anh ta cần các hàm liên quan bằng 0 hoặc 1 trong giới hạn: theo định nghĩa giới hạn, bạn hiểu chính xác những gì tôi đang nói, nghĩa là bạn đẩy mọi thứ tùy ý gần 0 hoặc 1.

(Tôi đã bỏ qua hàm truyền trong lớp cuối cùng, nếu nó ở đó và liên tục, thì chúng ta có thể điều chỉnh mọi thứ ánh xạ thành bằng cách thay thế các trọng số không đổi bằng một thứ gì đó trong hình ảnh nghịch đảo của hằng số đó theo chuyển chức năng.)[0,1]

Lưu ý rằng ở trên dường như có một vài lớp: giả sử, 2 để xây dựng các chỉ số trên các hình khối, và sau đó là một lớp đầu ra cuối cùng. Cybenko đã cố gắng cho hai điểm chung: số lượng lớp ẩn tối thiểu và tính linh hoạt trong việc lựa chọn chức năng chuyển. Tôi đã mô tả làm thế nào anh ta làm việc linh hoạt trong chức năng chuyển.

Để có được số lớp tối thiểu, anh ta tránh việc xây dựng ở trên, và thay vào đó sử dụng phân tích chức năng để phát triển mâu thuẫn. Đây là một bản phác thảo của cuộc tranh luận.

  • Nút cuối cùng tính toán kết hợp tuyến tính của các phần tử của lớp bên dưới nó và áp dụng hàm truyền cho nó. Sự kết hợp tuyến tính này là sự kết hợp tuyến tính của các hàm, và như vậy, chính nó là một hàm, một hàm trong một số không gian con của các hàm, được kéo dài bởi các nút có thể trong lớp ẩn.

  • Một không gian con của các hàm giống như một không gian con chiều hữu hạn thông thường, với sự khác biệt chính là nó có khả năng không phải là một tập đóng; đó là lý do tại sao tất cả các đối số của cybenko đều đóng cửa không gian con đó. Chúng tôi đang cố gắng chứng minh rằng việc đóng cửa này chứa tất cả các chức năng liên tục; điều đó có nghĩa là chúng ta tùy ý gần với tất cả các hàm liên tục.

  • Nếu không gian chức năng là đơn giản (một không gian Hilbert), chúng ta có thể tranh luận như sau. Chọn một số hàm liên tục đích được cho là không nằm trong không gian con và chiếu nó lên phần bù trực giao của không gian con. Phần dư này phải là khác không. Nhưng vì không gian con của chúng ta có thể đại diện cho những thứ như các khối nhỏ ở trên, chúng ta có thể tìm thấy một số vùng còn lại này, khớp một khối nhỏ với nó (như trên), và do đó tiến gần hơn đến chức năng mục tiêu của chúng ta. Đây là một mâu thuẫn vì các phép chiếu chọn các yếu tố tối thiểu. (Lưu ý, tôi sẽ để lại một cái gì đó ở đây: Đối số của Cybenko không xây dựng bất kỳ hình khối nhỏ nào, anh ta cũng xử lý điều này một cách tổng quát; đây là nơi anh ta sử dụng một dạng của định lý biểu diễn Riesz và các thuộc tính của các hàm truyền (nếu tôi nhớ chính xác, có một bổ đề riêng cho bước này,

  • Chúng ta không ở trong một không gian Hilbert, nhưng chúng ta có thể sử dụng định lý Hahn-Banach để thay thế bước chiếu ở trên (lưu ý, chứng minh Hahn-Banach sử dụng tiên đề của sự lựa chọn).

Bây giờ tôi muốn nói một vài điều về kết quả của Kolmogorov. Mặc dù kết quả này rõ ràng không cần loại nền tảng của Cybenko, nhưng cá nhân tôi nghĩ rằng nó đáng sợ hơn nhiều.

Đây là lý do tại sao. Kết quả của Cybenko là một sự đảm bảo gần đúng : không nói chúng ta có thể đại diện chính xác cho bất cứ điều gì. Mặt khác, kết quả của Kolmogorov là cung cấp một sự bình đẳng . Nực cười hơn, nó nói kích thước của mạng: bạn chỉ cần các nút . Để đạt được sự tăng cường này, tất nhiên có một nhược điểm, một điều tôi đã đề cập ở trên: mạng là không đồng nhất, ý tôi là tất cả các hàm truyền đều không giống nhau.O(d2)

Được rồi, vì vậy với tất cả điều đó, làm thế nào điều này có thể làm việc?!

Chúng ta hãy quay trở lại hình khối của chúng tôi ở trên. Lưu ý rằng chúng tôi phải nướng ở mức độ chính xác: với mỗi , chúng tôi phải quay lại và chọn một tinh tế hơn . Vì chúng tôi đang làm việc với các tổ hợp chỉ báo tuyến tính (hữu hạn), chúng tôi không bao giờ đại diện chính xác cho bất cứ điều gì. (mọi thứ chỉ trở nên tồi tệ hơn nếu bạn bao gồm các hiệu ứng gần đúng của sigmoids.)τ > 0ϵ>0τ>0

Vậy giải pháp là gì? Vâng, làm thế nào về chúng ta xử lý tất cả các quy mô đồng thời? Tôi không làm điều này: bằng chứng của Kolmogorov đang xây dựng một cách hiệu quả lớp ẩn dưới dạng một tập hợp các fractals. Nói một cách khác, về cơ bản, chúng là các đường cong lấp đầy không gian ánh xạ đến ; theo cách này, mặc dù chúng ta có sự kết hợp của các hàm đơn biến, chúng ta có thể phù hợp với bất kỳ hàm đa biến nào. Trên thực tế, bạn có thể lý giải theo lý thuyết rằng là "chính xác" thông qua một đối số đếm vô lý: chúng ta đang viết một hàm liên tục từ đến thông qua các hàm liên tục đơn biến và do đó, để nắm bắt tất cả các tương tác phối hợp, chúng ta cần[ 0 , 1 ] d O ( d 2 ) R d R O ( d 2 )[0,1][0,1]dO(d2)RdRO(d2) chức năng...

Lưu ý rằng kết quả của Cybenko, do chỉ sử dụng một loại chức năng chuyển, có liên quan nhiều hơn đến học máy. Các định lý kiểu này rất phổ biến trong học máy (vzn đã đề xuất điều này trong câu trả lời của anh ấy, tuy nhiên anh ấy đã đề cập đến kết quả của Kolmogorov, ít được áp dụng do các chức năng chuyển tùy chỉnh; điều này bị suy yếu trong một số phiên bản lạ hơn của kết quả Kolmogorov (được sản xuất bởi các tác giả khác), nhưng những người vẫn liên quan đến fractals, và ít nhất hai chức năng chuyển giao).

Tôi có một số slide về các chủ đề này, mà tôi có thể đăng nếu bạn quan tâm (hy vọng ít rầm rộ hơn ở trên, và có một số hình ảnh; tuy nhiên tôi đã viết chúng trước khi tôi thành thạo với Hahn-Banach). Tôi nghĩ cả hai bằng chứng đều rất, rất hay. (Ngoài ra, tôi có một câu trả lời khác ở đây về các chủ đề này, nhưng tôi đã viết nó trước khi tôi làm hỏng kết quả của Kolmogorov.)


1
ABϕfA:ϕ(f)1gB:ϕ(g)>1
Sasho Nikolov

3
SfSLL(g)=0gSL ( f )L(f)=fL(f)
matus

3
@SashoNikolov, điều kiện của Cybenko là đưa ra bất kỳ biện pháp đã ký nào không chính xác bằng 0, tồn tại một số hàm affine để tích hợp hàm truyền được cấu thành với hàm affine đó, qua số đo đó, không bằng 0. Sau đó, anh ta phải chứng minh bổ đề rằng sigmoids tổng quát (như tôi đã đưa ra ở trên: giới hạn về 0 và 1 ở bên trái và bên phải) phù hợp với dự luật. (tiếp tục trong bình luận tiếp theo.)
matus

2
@SashoNikolov. Ở trên tôi đã nói "đặt một khối lập phương dọc theo phần dư". Điều này sẽ làm cho công việc của chúng tôi dễ dàng hơn một chút, vì số đo đã ký không chính xác bằng 0, chúng tôi sẽ chỉ chọn ra một số phần nhỏ và đặt một chỉ báo ở đó. Trong trường hợp của anh ta, anh ta phải làm việc một chút, nhưng tương tự, điều này có nghĩa là di chuyển xung quanh sigmoid với chức năng affine để nó tìm thấy một số khu vực dễ dàng, do đó có được tích phân khác, mâu thuẫn với Hahn-Banach (không bằng không gian con của chúng ta) ; theo nghĩa Hilbert, chúng tôi thu hẹp phần còn lại của chúng tôi, một mâu thuẫn.
matus

1
Wow, đây là một câu trả lời cực kỳ tốt đẹp. Đương nhiên, tôi có một vài câu hỏi nếu bạn không ngại trả lời chúng. Kết quả của Cybenko (như bạn nói) có vẻ hữu ích nhất cho các ứng dụng, nhưng tôi hơi mất khả năng xử lý không gian con của các hàm. Làm thế nào để chúng ta chiếu một hàm liên tục tùy ý lên phần bù trực giao của không gian con của các tổ hợp tuyến tính của các nút có thể. Đối với vấn đề đó, làm thế nào để chúng ta khái niệm hóa lời khen trực giao của không gian con đó? Các chức năng gần nhau hơn trong không gian gần đúng hơn với nhau? (Tiếp theo).
Matt Munson

3

Có một kết quả nâng cao, chìa khóa cho học máy, được gọi là định lý Kolmogorov [1]; Tôi chưa bao giờ thấy một bản phác thảo trực quan về lý do tại sao nó hoạt động. Điều này có thể phải làm với các nền văn hóa khác nhau tiếp cận nó. Đám đông học tập ứng dụng coi định lý của Kolmogorov là một định lý tồn tại chỉ đơn thuần chỉ ra rằng NN có thể tồn tại, do đó, ít nhất cấu trúc không bị giới hạn quá mức, nhưng định lý không đảm bảo các NN này có thể được tìm thấy. Các nhà toán học không quá quan tâm đến các ứng dụng cấp thấp của định lý.

Định lý này trong lịch sử cũng được sử dụng để gọi / bảo vệ sự tinh vi vốn có của các NN đa lớp để chống lại sự chỉ trích từ Perceptrons (Minsky / Papert) rằng có những chức năng cơ bản [tức là phi tuyến] mà họ không thể học được.

Các nhà khoa học máy tính lý thuyết không thích coi NN là "xấp xỉ" , vì thuật ngữ đó có ý nghĩa đặc biệt / khác biệt. Có lẽ có một số tương tự thô với nội suy tuyến tính piecewise nhưng một lần nữa, tôi không thấy nó được đặt ra.

[1] Kolmogorov, AN (1957). Về biểu diễn các hàm liên tục của nhiều biến bằng cách xếp chồng các hàm liên tục của một biến và phép cộng. Doklady Akademii Nauk SSSR, 144, 679-681; Dịch thuật xã hội toán học Hoa Kỳ, 28, 55-59 [1963]

[2] 2.3 Khả năng gần đúng của mạng nơ ron phản hồi cho các chức năng liên tục

[3] Định lý Kolmogorov và mạng lưới thần kinh đa lớp Kurkova



"kết quả nâng cao này [...] chưa thấy một bản phác thảo trực quan về lý do tại sao nó hoạt động." Một bản phác thảo như vậy sẽ là một công việc đáng kể cho một người nào đó trong đám đông toán học tiên tiến? Những người toán cao cấp thậm chí còn hiểu trực giác tại sao nó hoạt động? Dường như sự hiểu biết trực quan về định lý này là điều mà đám đông học tập ứng dụng nên mong muốn mạnh mẽ, nếu họ muốn đưa ra các cấu trúc liên kết và thuật toán học tập vượt trội cho ANN.
Matt Munson

7
Chỉnh sửa cho ngữ pháp, chính tả, dấu câu và viết hoa.
Jeffε
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.