Mạng dư có liên quan đến Gradient Boosting không?


11

Gần đây, chúng ta đã thấy sự xuất hiện của Mạng lưới thần kinh dư, trong đó, mỗi lớp bao gồm một mô đun tính toán và một kết nối phím tắt bảo tồn đầu vào của lớp như đầu ra của lớp thứ i thể hiện: Mạng cho phép trích xuất các tính năng còn lại và cho phép độ sâu sâu hơn trong khi mạnh mẽ hơn đối với vấn đề độ dốc biến mất, đạt được trạng thái hiệu suất nghệ thuật.y i + 1 = c i + y ici

yi+1=ci+yi

Đã đào sâu vào việc tăng cường độ dốc , một kỹ thuật kết hợp rất mạnh mẽ trong thế giới máy học, dường như cũng thực hiện một hình thức tối ưu hóa độ dốc trên phần dư của tổn thất, thật khó để không thấy một dạng tương tự nào.

Tôi biết rằng chúng giống nhau nhưng không giống nhau - một điểm khác biệt lớn mà tôi nhận thấy là việc tăng cường độ dốc thực hiện tối ưu hóa trên thuật ngữ phụ gia trong khi mạng dư, tối ưu hóa toàn bộ mạng.

Tôi không thấy He et al lưu ý đây là một phần động lực của họ trong bài báo gốc . Vì vậy, tôi đã tự hỏi những hiểu biết của bạn về chủ đề này là gì và yêu cầu bạn chia sẻ các tài nguyên thú vị mà bạn có.

Cảm ơn bạn.

Câu trả lời:


7

Có khả năng là một bài báo mới hơn nhằm cố gắng giải quyết nhiều hơn từ nhóm Langford và Shapire: Học các khối ResNet sâu liên tục bằng cách sử dụng lý thuyết tăng cường

Các phần quan tâm là (Xem phần 3):

Sự khác biệt chính là việc tăng cường là một tập hợp của giả thuyết ước tính trong khi ResNet là một tập hợp các biểu diễn tính năng ước tính . Để giải quyết vấn đề này, chúng tôi giới thiệu một bộ phân loại tuyến tính phụ trợ trên đầu mỗi khối còn lại để xây dựng mô-đun giả thuyết . Chính thức một mô-đun giả thuyết được định nghĩa làt=0Tft(gt(x))wto t ( x ) : = w T t g t ( x ) R

ot(x):=wtTgt(x)R

...

(trong đó)ot(x)=t=0t1wtTft(gt(x))

Bài viết đi sâu vào chi tiết hơn nhiều về việc xây dựng bộ phân loại mô-đun yếu và cách tích hợp với thuật toán BoostResNet của họ .ht(x)


Thêm một chút chi tiết cho câu trả lời này, tất cả các thuật toán tăng cường có thể được viết dưới một số dạng [1] (p 5, 180, 185 ...):

FT(x):=t=0Tαtht(x)

Trong đó là giả thuyết yếu của , đối với một số lựa chọn . Lưu ý rằng các thuật toán tăng cường khác nhau sẽ mang lại và theo những cách khác nhau.httthαtαtht

Ví dụ: AdaBoost [1] (p 5.) sử dụng để giảm thiểu lỗi có trọng số vớihtϵtαt=12log1ϵtϵt

Mặt khác, trong cài đặt tăng cường độ dốc [1] (tr 190.), được chọn tối đa hóa và được chọn (như tỷ lệ học tập, v.v.)htL(Ft1(x))htαt>0

Trong trường hợp như trong [2] trong Bổ đề 3.2, có thể thấy rằng đầu ra của độ sâu- ResNet là tương đương vớiTF(x)

F(x)t=0Tht(x)

điều này hoàn thành mối quan hệ giữa tăng cường và resnet. Bài báo [2] đề xuất thêm lớp tuyến tính phụ trợ để đưa nó vào dạng , dẫn đến thuật toán BoostResNet của họ và một số thảo luận về điều đóFT(x):=t=0Tαtht(x)

[1] Robert E. Schapire và Yoav Freund. 2012. Boosting: Cơ sở và thuật toán. Báo chí MIT. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: Học các khối ResNet sâu liên tục sử dụng lý thuyết tăng cường, ICML 2018


4

Trả lời câu hỏi của riêng tôi: Tôi đã tìm thấy một bài báo đáng chú ý điều tra và chứng minh rằng Deep Residual Networks thực sự là một tập hợp các mạng nông.

KHÁC EDIT, sau khi hiểu vấn đề này nhiều hơn: Tôi xem Resnets như một cách để học 'Tăng cường tính năng'. Kết nối còn lại thực hiện tăng nhưng không phải trên mục tiêu mà thực sự là các tính năng đầu ra của lớp tiếp theo. Vì vậy, trên thực tế chúng được kết nối, nhưng nó không phải là tăng cường độ dốc cổ điển, mà trên thực tế, 'Tăng cường tính năng Gradient'.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.