Có thể đạt được kết quả hiện đại bằng cách chỉ sử dụng phương pháp truyền ngược (không cần đào tạo trước )?
Hoặc là để tất cả các phương pháp phá kỷ lục sử dụng một số hình thức đào tạo trước?
Là tuyên truyền trở lại một mình đủ tốt?
Có thể đạt được kết quả hiện đại bằng cách chỉ sử dụng phương pháp truyền ngược (không cần đào tạo trước )?
Hoặc là để tất cả các phương pháp phá kỷ lục sử dụng một số hình thức đào tạo trước?
Là tuyên truyền trở lại một mình đủ tốt?
Câu trả lời:
Đào tạo trước không còn cần thiết . Mục đích của nó là tìm ra một khởi tạo tốt cho các trọng số mạng để tạo điều kiện hội tụ khi một số lượng lớn các lớp được sử dụng. Ngày nay, chúng ta có ReLU , bỏ học và bình thường hóa hàng loạt , tất cả đều góp phần giải quyết vấn đề đào tạo mạng lưới thần kinh sâu. Trích dẫn từ bài đăng reddit được liên kết ở trên (bởi người chiến thắng thử thách Galaxy Zoo Kaggle):
Tôi có thể nói rằng thời kỳ tiền đào tạo của người Hồi giáo, bắt đầu vào khoảng năm 2006, đã kết thúc vào đầu những năm 10 khi mọi người bắt đầu sử dụng các đơn vị tuyến tính chỉnh lưu (ReLUs), và sau đó bỏ học, và phát hiện ra rằng đào tạo trước không còn có lợi cho việc này loại mạng.
Từ bài báo ReLU (được liên kết ở trên):
mạng chỉnh lưu sâu có thể đạt được hiệu suất tốt nhất của chúng mà không yêu cầu bất kỳ đào tạo trước không giám sát
Như đã nói, nó không còn cần thiết , nhưng vẫn có thể cải thiện hiệu suất trong một số trường hợp có quá nhiều mẫu không được giám sát (không nhãn), như đã thấy trong bài báo này .