Tôi muốn thêm vào những gì đã được nói rằng câu hỏi của bạn chạm đến một khái niệm quan trọng trong học máy gọi là học chuyển . Trong thực tế, rất ít người huấn luyện toàn bộ mạng chập từ đầu (với khởi tạo ngẫu nhiên), vì nó tốn thời gian và tương đối hiếm khi có một bộ dữ liệu có kích thước đủ.
ConvNets hiện đại mất 2-3 tuần để đào tạo trên nhiều GPU trên ImageNet. Vì vậy, người ta thường thấy mọi người phát hành các điểm kiểm tra ConvNet cuối cùng của họ vì lợi ích của những người khác có thể sử dụng các mạng để tinh chỉnh. Ví dụ: thư viện Caffe có Sở thú mô hình nơi mọi người chia sẻ trọng lượng mạng của họ.
Khi bạn cần một ConvNet để nhận dạng hình ảnh, bất kể miền ứng dụng của bạn là gì, bạn nên xem xét việc lấy một mạng hiện có, ví dụ VGGNet là một lựa chọn phổ biến.
Có một số điều cần lưu ý khi thực hiện học chuyển :
Các ràng buộc từ các mô hình trước. Lưu ý rằng nếu bạn muốn sử dụng một mạng được xử lý trước, bạn có thể bị hạn chế một chút về mặt kiến trúc mà bạn có thể sử dụng cho tập dữ liệu mới của mình. Ví dụ: bạn không thể tự ý lấy ra các lớp Conv từ mạng được sàng lọc trước. Tuy nhiên, một số thay đổi rất đơn giản: do chia sẻ tham số, bạn có thể dễ dàng chạy một mạng được xử lý trước trên các hình ảnh có kích thước không gian khác nhau. Điều này thể hiện rõ ràng trong trường hợp các lớp Conv / Pool vì chức năng chuyển tiếp của chúng không phụ thuộc vào kích thước không gian của khối lượng đầu vào (miễn là các bước tiến phù hợp với điều chỉnh).
Tỷ lệ học tập. Thông thường sử dụng tỷ lệ học tập nhỏ hơn cho các trọng số ConvNet đang được tinh chỉnh, so với các trọng số (được khởi tạo ngẫu nhiên) cho trình phân loại tuyến tính mới tính toán điểm số của tập dữ liệu mới của bạn. Điều này là do chúng tôi hy vọng rằng các trọng số ConvNet tương đối tốt, vì vậy chúng tôi không muốn làm biến dạng chúng quá nhanh và quá nhiều (đặc biệt là trong khi Trình phân loại tuyến tính mới ở trên chúng đang được đào tạo từ khởi tạo ngẫu nhiên).
Tham khảo thêm nếu bạn quan tâm đến chủ đề này: Làm thế nào các tính năng có thể chuyển đổi trong các mạng thần kinh sâu?