Đào tạo trước trong mạng lưới thần kinh tích chập sâu?

33

Có ai nhìn thấy bất kỳ tài liệu về đào tạo trước trong mạng lưới thần kinh tích chập sâu? Tôi chỉ thấy đào tạo trước không được giám sát trong bộ tự động mã hóa hoặc máy Boltzman bị hạn chế.

— RockTheStar
nguồn

39

Tôi không chắc liệu điều này có trả lời chính xác câu hỏi của bạn không, nhưng từ những gì tôi hiểu lý do bạn không thấy mọi người giả vờ ( ý tôi là điều này theo nghĩa không được giám sát ) bởi vì đã có những đổi mới khác nhau trong đào tạo được giám sát hoàn toàn đã khiến cho việc kiểm soát trước không cần thiết không cần thiết (hiện tại, ai biết vấn đề và vấn đề nào trong tương lai sẽ xảy ra?).

Một trong những đổi mới chính là chuyển từ các đơn vị kích hoạt sigmoidal (sigmoid, tanh), có thể bão hòa / có các vùng có độ cong gần bằng phẳng và do đó rất ít độ dốc được truyền ngược, vì vậy việc học rất chậm nếu không dừng lại hoàn toàn cho mọi ý định thực tế và mục đích. Bài báo Glorot, Bordes và Bengio Mạng chỉnh lưu sâu thưa thớt Mạng thần kinh đã sử dụng các đơn vị tuyến tính chỉnh lưu (ReLUs) làm chức năng kích hoạt thay cho các đơn vị sigmoidal truyền thống. Các ReLU có dạng sau: . Lưu ý rằng chúng không bị ràng buộc và đối với phần dương, có độ dốc 1 không đổi. $f(x) = \max(0, x)$

Bài báo Glorot, Bordes và Bengio đã sử dụng ReLU cho các tri giác đa lớp chứ không phải Conv Nets. Một bài viết trước Kiến trúc nhiều giai đoạn tốt nhất để nhận dạng đối tượng của Jarret và những người khác từ nhóm NYU của Yann LeCun đã sử dụng chỉnh lưu phi tuyến nhưng cho các đơn vị sigmoidal, vì vậy họ có chức năng kích hoạt ở dạng, v.v ... Cả hai bài báo đều quan sát thấy rằng việc sử dụng các phi tuyến chỉnh lưu dường như thu hẹp phần lớn khoảng cách giữa các phương pháp được giám sát thuần túy và các phương pháp được kiểm soát trước không giám sát. $f(x) = |\tanh(x)|$

Một sự đổi mới khác là chúng tôi đã tìm ra các khởi tạo tốt hơn nhiều cho các mạng sâu. Sử dụng ý tưởng chuẩn hóa phương sai trên các lớp của mạng, các quy tắc tốt đã được thiết lập qua nhiều năm. Một trong những cái đầu tiên, phổ biến nhất là bởi Glorot và Bengio Hiểu về sự khó khăn của việc đào tạo Mạng lưới thức ăn sâu cung cấp một cách để khởi tạo mạng lưới sâu theo giả thuyết kích hoạt tuyến tính và sau đó là Delving Deep Into Rectifierbởi một nhóm các thành viên nhóm Nghiên cứu của Microsoft đã sửa đổi khởi tạo trọng lượng Glorot và Bengio để giải thích cho các phi tuyến chính xác. Việc khởi tạo trọng lượng là một vấn đề lớn đối với lưới cực kỳ sâu. Đối với mạng lưới 30 lớp, việc khởi tạo trọng lượng MSR thực hiện tốt hơn nhiều so với khởi tạo trọng lượng Glorot. Hãy nhớ rằng giấy Glorot ra đời vào năm 2010 và giấy MSR ra đời vào năm 2015.

Tôi không chắc liệu Phân loại ImageNet với giấy Mạng thần kinh chuyển đổi sâu của Alex Krizhevsky, Ilya Sutskever và Geoff Hinton là những người đầu tiên sử dụng ReLUs cho lưới điện, nhưng nó có tác động lớn nhất. Trong bài báo này, chúng ta thấy rằng ReLU cho lưới đối lưu tăng tốc độ học tập, bằng chứng là một trong các biểu đồ CIFAR-10 của họ cho thấy lưới đối lưu ReLU có thể đạt được tỷ lệ lỗi đào tạo thấp hơn nhanh hơn so với lưới không phải ReLU. Các ReLU này không gặp phải vấn đề biến đổi độ dốc / bão hòa sigmoidal và có thể được sử dụng để huấn luyện các lưới sâu hơn nhiều. Một trong những cải tiến lớn khác là sử dụng đào tạo Dropout, kỹ thuật trung bình tiếng ồn ngẫu nhiên hoặc kỹ thuật lấy trung bình mô hình (tùy theo quan điểm của bạn) cho phép chúng tôi đào tạo các mạng thần kinh sâu hơn, lớn hơn lâu hơn mà không cần quá nhiều.

Và sự đổi mới của mạng lưới tiếp tục với tốc độ chóng mặt, gần như tất cả các phương pháp sử dụng ReLU (hoặc một số sửa đổi như PReLU từ Microsoft Research), Dropout và đào tạo được giám sát thuần túy (SGD + Momentum, có thể là một số kỹ thuật tốc độ học thích ứng như RMSProp hoặc ADAGrad ).

Vì vậy, cho đến nay, rất nhiều lưới đối lưu hoạt động hàng đầu dường như có bản chất được giám sát hoàn toàn. Điều đó không có nghĩa là việc sơ chế không được giám sát hoặc sử dụng các kỹ thuật không được giám sát có thể không quan trọng trong tương lai. Nhưng một số mạng lưới cực kỳ sâu đã được đào tạo, đã phù hợp hoặc vượt qua hiệu suất của con người trên các bộ dữ liệu rất phong phú, chỉ sử dụng đào tạo có giám sát. Trên thực tế, tôi tin rằng bản đệ trình Nghiên cứu mới nhất của Microsoft cho cuộc thi ImageNet 2015 có 150 lớp. Đó không phải là một lỗi đánh máy. 150.

Nếu bạn muốn sử dụng tiền xử lý không giám sát cho lưới đối lưu, tôi nghĩ rằng tốt nhất bạn nên tìm một nhiệm vụ trong đó việc đào tạo lưới giám sát "tiêu chuẩn" không thực hiện tốt và thử xử lý trước không giám sát.

Không giống như mô hình hóa ngôn ngữ tự nhiên, dường như khó có thể tìm thấy một nhiệm vụ không giám sát giúp một nhiệm vụ được giám sát tương ứng khi nói đến dữ liệu hình ảnh. Nhưng nếu bạn tìm kiếm trên Internet đủ, bạn sẽ thấy một số người tiên phong của việc học sâu (Yoshua Bengio, Yann LeCun kể tên một vài người) nói về tầm quan trọng của việc họ nghĩ rằng việc học không được giám sát và sẽ quan trọng như thế nào.

— Indie AI
nguồn

1

Tôi đã thấy trong hướng dẫn của Stanford về ConvNet rằng, có sự sơ bộ trong các mạng lưới thần kinh tích chập. đây là đường dẫn: cs231n.github.io/transfer-learning Có khác nhau không? vì họ thực sự đang làm điều tương tự phải không?

— Rika

2

Này, tôi xin lỗi vì đã trả lời trễ. Học chuyển được thực hiện rất nhiều. Nó được sử dụng để tránh nhiệm vụ đào tạo tẻ nhạt từ đầu và thay vào đó sử dụng các tính năng được đào tạo trên một tập dữ liệu lớn như ImageNet và thay vào đó chúng tôi chỉ đào tạo một trình phân loại trên các tính năng đó. Tôi đã cập nhật câu trả lời của mình để xác định rằng những ngày này bạn không thấy nhiều sự giả bộ không được giám sát , điều này không giống như học chuyển. Cảm ơn bạn đã bình luận.

— Indie AI

+1. Câu trả lời rất hay. Những gì tôi đang thiếu có một số cuộc thảo luận hoặc nhận xét về việc bạn đang nói gì (nghĩa là không cần phải đào tạo trước) áp dụng cụ thể cho các mạng thần kinh tích chập (nếu vậy, tại sao?) Hoặc cho bất kỳ mạng sâu nào, kể cả không những người chập chững.

— amip nói rằng Phục hồi lại

14

Như có thể hiểu từ các câu trả lời ở trên, đào tạo trước đã 'lỗi thời' khi nhiều điều xảy ra. Tuy nhiên, tôi muốn chắt lọc sự hiểu biết của tôi về nó:

Từ lâu năm 2010, mọi người đều quan tâm đến việc đào tạo trước. Đây là một bài viết tuyệt vời về chủ đề mà tôi không thấy đưa lên.
Một chút trước khi Alex Krizhevsky, Ilya Sutskever và Geoff Hinton xuất bản bài báo tưởng tượng của họ, mọi người vẫn tin rằng các tính năng quan trọng nhưng chủ yếu tập trung vào việc học không giám sát và thậm chí tự học cách sản xuất các tính năng đó.
Không khó để hiểu tại sao - các khối xây dựng của mạng lưới thần kinh vào thời điểm đó không mạnh mẽ và hội tụ rất chậm với các tính năng hữu ích. Nhiều lần họ thậm chí thất bại một cách ngoạn mục. Đào tạo trước rất hữu ích khi bạn có dữ liệu phong phú, bạn có thể có được một khởi tạo tốt cho SGD.
Khi Relu được đưa lên, các mạng hội tụ nhanh hơn. Khi Relu rò rỉ và các giải pháp gần đây hơn được đưa ra, mạng lưới thần kinh trở thành cỗ máy mạnh mẽ hơn khi hội tụ đến một kết quả khả thi. Tôi thực sự khuyên bạn nên chơi với một mạng lưới thần kinh tuyệt vời để giới thiệu người tài năng này đã viết , bạn sẽ thấy những gì tôi đang nói.
Đến điểm chính của chúng tôi, điều đó không có nghĩa là một số hình thức Pre-training không quan trọng trong việc học sâu. Nếu bạn muốn có được kết quả hiện đại, bạn phải thực hiện xử lý trước dữ liệu (ví dụ ZCA) và chọn đúng trọng lượng ban đầu - đây là một bài viết rất hay về chủ đề này .

Vì vậy, bạn thấy, đào tạo trước đã thay đổi hình thức thành tiền xử lý và khởi tạo trọng số nhưng vẫn hoạt động và nó trở nên thanh lịch hơn.

Như một lưu ý cuối cùng, học máy rất thời trang. Cá nhân tôi cá cược như Andrew Ng rằng việc học không tự chủ và tự học sẽ chiếm ưu thế trong tương lai vì vậy đừng biến điều này thành tôn giáo :)

— đại hoàng
nguồn

13

Có một số giấy tờ nhưng không nhiều như autoencoder hoặc RBM. Tôi nghĩ lý do là dòng thời gian của NN. RBM xếp chồng và bộ mã hóa tự động được giới thiệu lần lượt vào năm 2006 và 2007 . Sau khi ReLU làm việc vào năm 2009, việc học tập không giám sát bị bỏ rơi một phần (khi có đủ dữ liệu để học trong học tập có giám sát trực tiếp). Mặc dù mạng Convolution (hoặc LeNet) được phát minh vào năm 1989 , nó không thể được đào tạo thành cấu trúc sâu cho đến năm 2012 , sau khi phổ biến việc học có giám sát trực tiếp với ReLU. Vì vậy, các nhà nghiên cứu, tôi đoán, đã đào tạo nó chủ yếu bằng cách sử dụng học tập có giám sát trực tiếp.

— yasin.yazici
nguồn

Vì vậy, bạn đồng ý rằng không có đào tạo trước trong mạng lưới thần kinh tích chập sâu chưa?

— RockTheStar 29/07/2015

4

@RockTheStar không, có nhưng không nhiều như hai phần trước. Research.microsoft.com/pub/200804/CNN-Interspeech2013_pub.pdf nghiên cứu này đã sử dụng nó. Đây là một trích dẫn ngắn; "Chúng tôi quan sát rằng việc đào tạo trước cải thiện cả DNN và CNN ngoại trừ CNN trên TIMIT khi mà việc sơ tuyển không giúp ích gì. Nói chung, sự cải thiện tương đối của việc sử dụng trước cho CNN ít hơn so với DNN."

— yasin.yazici 29/07/2015