Có ai nhìn thấy bất kỳ tài liệu về đào tạo trước trong mạng lưới thần kinh tích chập sâu? Tôi chỉ thấy đào tạo trước không được giám sát trong bộ tự động mã hóa hoặc máy Boltzman bị hạn chế.
Có ai nhìn thấy bất kỳ tài liệu về đào tạo trước trong mạng lưới thần kinh tích chập sâu? Tôi chỉ thấy đào tạo trước không được giám sát trong bộ tự động mã hóa hoặc máy Boltzman bị hạn chế.
Câu trả lời:
Tôi không chắc liệu điều này có trả lời chính xác câu hỏi của bạn không, nhưng từ những gì tôi hiểu lý do bạn không thấy mọi người giả vờ ( ý tôi là điều này theo nghĩa không được giám sát ) bởi vì đã có những đổi mới khác nhau trong đào tạo được giám sát hoàn toàn đã khiến cho việc kiểm soát trước không cần thiết không cần thiết (hiện tại, ai biết vấn đề và vấn đề nào trong tương lai sẽ xảy ra?).
Một trong những đổi mới chính là chuyển từ các đơn vị kích hoạt sigmoidal (sigmoid, tanh), có thể bão hòa / có các vùng có độ cong gần bằng phẳng và do đó rất ít độ dốc được truyền ngược, vì vậy việc học rất chậm nếu không dừng lại hoàn toàn cho mọi ý định thực tế và mục đích. Bài báo Glorot, Bordes và Bengio Mạng chỉnh lưu sâu thưa thớt Mạng thần kinh đã sử dụng các đơn vị tuyến tính chỉnh lưu (ReLUs) làm chức năng kích hoạt thay cho các đơn vị sigmoidal truyền thống. Các ReLU có dạng sau: . Lưu ý rằng chúng không bị ràng buộc và đối với phần dương, có độ dốc 1 không đổi.
Bài báo Glorot, Bordes và Bengio đã sử dụng ReLU cho các tri giác đa lớp chứ không phải Conv Nets. Một bài viết trước Kiến trúc nhiều giai đoạn tốt nhất để nhận dạng đối tượng của Jarret và những người khác từ nhóm NYU của Yann LeCun đã sử dụng chỉnh lưu phi tuyến nhưng cho các đơn vị sigmoidal, vì vậy họ có chức năng kích hoạt ở dạng, v.v ... Cả hai bài báo đều quan sát thấy rằng việc sử dụng các phi tuyến chỉnh lưu dường như thu hẹp phần lớn khoảng cách giữa các phương pháp được giám sát thuần túy và các phương pháp được kiểm soát trước không giám sát.
Một sự đổi mới khác là chúng tôi đã tìm ra các khởi tạo tốt hơn nhiều cho các mạng sâu. Sử dụng ý tưởng chuẩn hóa phương sai trên các lớp của mạng, các quy tắc tốt đã được thiết lập qua nhiều năm. Một trong những cái đầu tiên, phổ biến nhất là bởi Glorot và Bengio Hiểu về sự khó khăn của việc đào tạo Mạng lưới thức ăn sâu cung cấp một cách để khởi tạo mạng lưới sâu theo giả thuyết kích hoạt tuyến tính và sau đó là Delving Deep Into Rectifierbởi một nhóm các thành viên nhóm Nghiên cứu của Microsoft đã sửa đổi khởi tạo trọng lượng Glorot và Bengio để giải thích cho các phi tuyến chính xác. Việc khởi tạo trọng lượng là một vấn đề lớn đối với lưới cực kỳ sâu. Đối với mạng lưới 30 lớp, việc khởi tạo trọng lượng MSR thực hiện tốt hơn nhiều so với khởi tạo trọng lượng Glorot. Hãy nhớ rằng giấy Glorot ra đời vào năm 2010 và giấy MSR ra đời vào năm 2015.
Tôi không chắc liệu Phân loại ImageNet với giấy Mạng thần kinh chuyển đổi sâu của Alex Krizhevsky, Ilya Sutskever và Geoff Hinton là những người đầu tiên sử dụng ReLUs cho lưới điện, nhưng nó có tác động lớn nhất. Trong bài báo này, chúng ta thấy rằng ReLU cho lưới đối lưu tăng tốc độ học tập, bằng chứng là một trong các biểu đồ CIFAR-10 của họ cho thấy lưới đối lưu ReLU có thể đạt được tỷ lệ lỗi đào tạo thấp hơn nhanh hơn so với lưới không phải ReLU. Các ReLU này không gặp phải vấn đề biến đổi độ dốc / bão hòa sigmoidal và có thể được sử dụng để huấn luyện các lưới sâu hơn nhiều. Một trong những cải tiến lớn khác là sử dụng đào tạo Dropout, kỹ thuật trung bình tiếng ồn ngẫu nhiên hoặc kỹ thuật lấy trung bình mô hình (tùy theo quan điểm của bạn) cho phép chúng tôi đào tạo các mạng thần kinh sâu hơn, lớn hơn lâu hơn mà không cần quá nhiều.
Và sự đổi mới của mạng lưới tiếp tục với tốc độ chóng mặt, gần như tất cả các phương pháp sử dụng ReLU (hoặc một số sửa đổi như PReLU từ Microsoft Research), Dropout và đào tạo được giám sát thuần túy (SGD + Momentum, có thể là một số kỹ thuật tốc độ học thích ứng như RMSProp hoặc ADAGrad ).
Vì vậy, cho đến nay, rất nhiều lưới đối lưu hoạt động hàng đầu dường như có bản chất được giám sát hoàn toàn. Điều đó không có nghĩa là việc sơ chế không được giám sát hoặc sử dụng các kỹ thuật không được giám sát có thể không quan trọng trong tương lai. Nhưng một số mạng lưới cực kỳ sâu đã được đào tạo, đã phù hợp hoặc vượt qua hiệu suất của con người trên các bộ dữ liệu rất phong phú, chỉ sử dụng đào tạo có giám sát. Trên thực tế, tôi tin rằng bản đệ trình Nghiên cứu mới nhất của Microsoft cho cuộc thi ImageNet 2015 có 150 lớp. Đó không phải là một lỗi đánh máy. 150.
Nếu bạn muốn sử dụng tiền xử lý không giám sát cho lưới đối lưu, tôi nghĩ rằng tốt nhất bạn nên tìm một nhiệm vụ trong đó việc đào tạo lưới giám sát "tiêu chuẩn" không thực hiện tốt và thử xử lý trước không giám sát.
Không giống như mô hình hóa ngôn ngữ tự nhiên, dường như khó có thể tìm thấy một nhiệm vụ không giám sát giúp một nhiệm vụ được giám sát tương ứng khi nói đến dữ liệu hình ảnh. Nhưng nếu bạn tìm kiếm trên Internet đủ, bạn sẽ thấy một số người tiên phong của việc học sâu (Yoshua Bengio, Yann LeCun kể tên một vài người) nói về tầm quan trọng của việc họ nghĩ rằng việc học không được giám sát và sẽ quan trọng như thế nào.
Như có thể hiểu từ các câu trả lời ở trên, đào tạo trước đã 'lỗi thời' khi nhiều điều xảy ra. Tuy nhiên, tôi muốn chắt lọc sự hiểu biết của tôi về nó:
Vì vậy, bạn thấy, đào tạo trước đã thay đổi hình thức thành tiền xử lý và khởi tạo trọng số nhưng vẫn hoạt động và nó trở nên thanh lịch hơn.
Như một lưu ý cuối cùng, học máy rất thời trang. Cá nhân tôi cá cược như Andrew Ng rằng việc học không tự chủ và tự học sẽ chiếm ưu thế trong tương lai vì vậy đừng biến điều này thành tôn giáo :)
Có một số giấy tờ nhưng không nhiều như autoencoder hoặc RBM. Tôi nghĩ lý do là dòng thời gian của NN. RBM xếp chồng và bộ mã hóa tự động được giới thiệu lần lượt vào năm 2006 và 2007 . Sau khi ReLU làm việc vào năm 2009, việc học tập không giám sát bị bỏ rơi một phần (khi có đủ dữ liệu để học trong học tập có giám sát trực tiếp). Mặc dù mạng Convolution (hoặc LeNet) được phát minh vào năm 1989 , nó không thể được đào tạo thành cấu trúc sâu cho đến năm 2012 , sau khi phổ biến việc học có giám sát trực tiếp với ReLU. Vì vậy, các nhà nghiên cứu, tôi đoán, đã đào tạo nó chủ yếu bằng cách sử dụng học tập có giám sát trực tiếp.