Việc đào tạo các tầng sâu của mạng tham lam có cần thiết cho việc đào tạo thành công hay là độ dốc ngẫu nhiên đủ giảm?

Có thể đạt được kết quả hiện đại bằng cách chỉ sử dụng phương pháp truyền ngược (không cần đào tạo trước )?

Hoặc là để tất cả các phương pháp phá kỷ lục sử dụng một số hình thức đào tạo trước?

Là tuyên truyền trở lại một mình đủ tốt?

Đào tạo trước không còn cần thiết . Mục đích của nó là tìm ra một khởi tạo tốt cho các trọng số mạng để tạo điều kiện hội tụ khi một số lượng lớn các lớp được sử dụng. Ngày nay, chúng ta có ReLU , bỏ học và bình thường hóa hàng loạt , tất cả đều góp phần giải quyết vấn đề đào tạo mạng lưới thần kinh sâu. Trích dẫn từ bài đăng reddit được liên kết ở trên (bởi người chiến thắng thử thách Galaxy Zoo Kaggle):

Tôi có thể nói rằng thời kỳ tiền đào tạo của người Hồi giáo, bắt đầu vào khoảng năm 2006, đã kết thúc vào đầu những năm 10 khi mọi người bắt đầu sử dụng các đơn vị tuyến tính chỉnh lưu (ReLUs), và sau đó bỏ học, và phát hiện ra rằng đào tạo trước không còn có lợi cho việc này loại mạng.

Từ bài báo ReLU (được liên kết ở trên):

mạng chỉnh lưu sâu có thể đạt được hiệu suất tốt nhất của chúng mà không yêu cầu bất kỳ đào tạo trước không giám sát

Như đã nói, nó không còn cần thiết , nhưng vẫn có thể cải thiện hiệu suất trong một số trường hợp có quá nhiều mẫu không được giám sát (không nhãn), như đã thấy trong bài báo này .

— RCpinto
nguồn

Đây là một câu trả lời tốt nhưng tôi nghĩ sẽ tốt hơn nữa nếu bạn có thể tìm thấy một tài liệu tham khảo học thuật, thay vì một chủ đề Reddit.

— Sycorax nói Phục hồi lại

Không đủ 3 điều trên? Nó thậm chí còn được viết trong bản tóm tắt của cái đầu tiên.

— RCpinto

Bản sửa đổi chính xác là loại hỗ trợ cho tuyên bố rằng "đào tạo trước không còn cần thiết" mà tôi đã hy vọng. Cảm ơn bạn đã đóng góp cho trang web của chúng tôi.

— Sycorax nói Phục hồi lại

Đây là một câu hỏi liên quan: đào tạo trước có giống như bỏ học (trong một số ý nghĩa)?

Câu trả lời này là rất sai , hoặc ít nhất là sai lệch; BN, Dropout, v.v ... đóng vai trò chủ yếu trực giao với tiền xử lý, trong đó sau này cho phép học tính năng có thể chuyển nhượng . Ví dụ: khử nhiễu, giảm kích thước, mã hóa dữ liệu thiếu thời gian tái cấu trúc bộ mã hóa thời gian tự động được đặt ở đầu vào trước mạng lưới thần kinh phân loại; bộ phân loại học các tính năng phân biệt đối xử , rất khác biệt so với bộ mã hóa tự động.

— OverLordGoldDragon