Xấp xỉ chức năng phổ quát


15

Người ta đã biết thông qua định lý gần đúng phổ quát rằng một mạng nơ ron chỉ có một lớp ẩn duy nhất và một hàm kích hoạt tùy ý có thể xấp xỉ bất kỳ hàm liên tục nào.

Những mô hình nào khác ở đó cũng là các hàm xấp xỉ phổ quát


Tôi đã tham gia trang web này để nâng cao câu hỏi này và một số câu trả lời.
Prasad Raghavendra

Câu trả lời:


20

Điều này được đối xử rộng rãi trong các tài liệu thống kê, theo chủ đề hồi quy. Hai tài liệu tham khảo tiêu chuẩn ở đây là cuốn sách của Wasserman "tất cả các số liệu thống kê không theo số liệu" và "giới thiệu về ước lượng không theo số liệu" của Tsybakov. Tôi sẽ nói ngắn gọn về một số nội dung tiêu chuẩn và cố gắng đưa ra gợi ý bên ngoài số liệu thống kê (đây là một chủ đề chung và các lĩnh vực khác nhau có văn hóa khác nhau: chứng minh các loại định lý khác nhau, đưa ra các giả định khác nhau).

  1. (Bộ hồi quy hạt nhân, đôi khi được gọi là Công cụ ước tính Nadaraya-Watson.) Ở đây bạn viết hàm tại bất kỳ điểm nào dưới dạng kết hợp trọng số của các giá trị gần đó. Cụ thể hơn, vì đây là trong tài liệu thống kê, bạn thường cho rằng bạn có một số ví dụ được rút ra từ một số phân phối và sửa một số kernel K (có thể nghĩ về điều này như một gaussian, nhưng không có nghĩa là những gì quan trọng nhất), và ghi f ( x ) : = Σ i f ( x i((xTôi,f(xTôi)))Tôi= =1nK nơicn(bạn nhạy cảm hơn với khoảng cách nhỏ nhưntăng). Việc bảo lãnh là, nhưn, một tiêu chuẩn probilistic của méo (kỳ vọng của sup-norm, xác suất cao, bất cứ điều gì) đi đến số không. (Nó hầu như không quan trọngKtrông như thế nào --- nó quan trọng hơn cách bạn chọncn.)

    f^(x): =ΣTôif(xTôi)(K(cn(x-xTôi))ΣjK(cn(x-xj))),
    cnnnKcn
  2. L2f^f. Để hiểu được sự đa dạng của các cách tiếp cận ở đây, một bài báo gọn gàng là "xấp xỉ thống nhất các hàm với các cơ sở ngẫu nhiên" của Rahimi & Recht. Có lẽ tôi nên nói rằng ông nội của tất cả những thứ này là bản mở rộng Fourier; có rất nhiều tài liệu hay về điều này trong cuốn sách về Wavelets của Mallat.

  3. (Phương thức cây.) Một cách khác là xem xét một chức năng như một cái cây; ở mỗi cấp độ, bạn đang làm việc với một số phân vùng của tên miền và trả về, ví dụ, điểm trung bình. (Mỗi lần cắt tỉa của cây cũng cho một phân vùng.) Trong giới hạn, độ mịn của phân vùng này sẽ không còn phân biệt chức năng và bạn đã xây dựng lại chính xác. Làm thế nào tốt nhất để chọn phân vùng này là một vấn đề khó khăn. (Bạn có thể google cái này trong "cây hồi quy".)

  4. (Phương pháp đa thức; xem thêm spline và các kỹ thuật nội suy khác.) Theo định lý của Taylor, bạn biết rằng bạn có thể tùy ý gần với các hàm hoạt động tốt. Điều này có vẻ giống như một cách tiếp cận rất cơ bản (ví dụ, chỉ cần sử dụng nội suy đa thức Lagrange), nhưng mà mọi thứ trở nên thú vị là trong việc quyết định điểm để nội suy. Điều này đã được nghiên cứu rộng rãi trong bối cảnh tích hợp số; bạn có thể tìm thấy một số phép toán tuyệt vời theo các chủ đề của "phương pháp bậc hai clenshaw-curtis" và "phương trình gaussian". Tôi đang ném nó vào đây bởi vì các loại giả định và đảm bảo ở đây rất khác biệt so với những gì xuất hiện ở trên. Tôi thích lĩnh vực này nhưng các phương thức này thực sự bị ảnh hưởng xấu từ lời nguyền của chiều, ít nhất tôi nghĩ đây là lý do tại sao chúng ít được thảo luận hơn trước đây (nếu bạn thực hiện tích hợp số với mathicala, tôi nghĩ rằng nó thực hiện phương pháp bậc hai cho các miền đơn biến, nhưng kỹ thuật lấy mẫu cho các miền đa biến).

Xem xét các hạn chế khác nhau đối với lớp chức năng của bạn, bạn có thể khởi tạo các điều trên để có được tất cả các loại kịch bản được sử dụng rộng rãi khác. Ví dụ, với các hàm có giá trị boolean, ngưỡng (1.) sẽ trông rất giống một công cụ ước tính lân cận gần nhất hoặc một SVM với một số nhân cục bộ (gaussian). Rất nhiều thứ ở trên bị lời nguyền của chiều (giới hạn thể hiện sự phụ thuộc theo cấp số nhân vào kích thước). Trong học máy bạn có thể giải quyết vấn đề này bằng cách ràng buộc rõ ràng lớp của bạn với một số gia đình (nghĩa là "phương pháp tham số) hoặc bằng một ràng buộc ngầm, thường là một cái gì đó liên quan đến chất lượng của các xấp xỉ với độ phức tạp của hàm mục tiêu (nghĩa là tương tự của giả định học tập yếu trong việc thúc đẩy).

Nhân tiện, định lý yêu thích của tôi liên quan đến xấp xỉ mạng lưới thần kinh là định lý chồng chất của Kolmogorov (từ năm 1957!). Nó nói rằng bất kỳ hàm liên tục đa biến có dạng f ( x ) = 2 d j = 0 h j ( d i = 1 g jf:RdR

f(x)= =Σj= =02dhj(ΣTôi= =1dgj,Tôi(xTôi)),
gj,Tôi:RRhj:RRghΘ(d2)

(Bạn chỉ hỏi về các lớp chức năng, nhưng tôi cho rằng bạn cũng quan tâm đến các phương thức .. nếu không .. rất tiếc)


"Từ năm 1957!", Đó có phải là số mũ của năm 1957, vậy là từ tương lai?! :)
nbro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.