Nếu đây chỉ là trường hợp một lần, bạn có thể chỉ cần đào tạo lại mạng lưới thần kinh. Nếu bạn thường xuyên phải thêm các lớp mới, thì đây là một ý tưởng tồi. Những gì bạn muốn làm trong những trường hợp như vậy được gọi là truy xuất hình ảnh dựa trên nội dung (CBIR), hoặc đơn giản là truy xuất hình ảnh hoặc tìm kiếm trực quan. Tôi sẽ giải thích cả hai trường hợp trong câu trả lời của tôi dưới đây.
Trường hợp một lần
Nếu điều này chỉ xảy ra một lần - bạn đã quên lớp thứ 11 hoặc khách hàng của bạn đã thay đổi ý định - nhưng nó sẽ không xảy ra lần nữa , thì bạn có thể chỉ cần một nút đầu ra thứ 11 đến lớp cuối cùng. Khởi tạo ngẫu nhiên các trọng số cho nút này, nhưng sử dụng các trọng số bạn đã có cho các đầu ra khác. Sau đó, chỉ cần đào tạo nó như bình thường. Nó có thể hữu ích để sửa một số trọng lượng, tức là không đào tạo những trọng lượng này.
Một trường hợp cực đoan sẽ là chỉ đào tạo các trọng lượng mới, và để tất cả những người khác cố định. Nhưng tôi không chắc liệu điều này có hoạt động tốt không - có thể đáng để thử.
Lấy hình ảnh dựa trên nội dung
Hãy xem xét ví dụ sau: bạn đang làm việc cho một cửa hàng CD, người muốn khách hàng của họ có thể chụp ảnh bìa album và ứng dụng cho họ xem CD họ đã quét trong cửa hàng trực tuyến của họ. Trong trường hợp đó, bạn sẽ phải đào tạo lại mạng cho mỗi CD mới mà họ có trong cửa hàng. Đó có thể là 5 đĩa CD mới mỗi ngày, do đó, đào tạo lại mạng theo cách đó không phù hợp.
Giải pháp là đào tạo một mạng, ánh xạ hình ảnh vào một không gian đặc trưng. Mỗi hình ảnh sẽ được đại diện bởi một mô tả, ví dụ như một vectơ 256 chiều. Bạn có thể "phân loại" hình ảnh bằng cách tính toán mô tả này và so sánh nó với cơ sở dữ liệu mô tả của bạn (tức là mô tả của tất cả các đĩa CD bạn có trong cửa hàng của mình). Mô tả gần nhất trong cơ sở dữ liệu chiến thắng.
Làm thế nào để bạn đào tạo một mạng lưới thần kinh để tìm hiểu một vectơ mô tả như vậy? Đó là một lĩnh vực nghiên cứu tích cực. Bạn có thể tìm thấy công việc gần đây bằng cách tìm kiếm các từ khóa như "truy xuất hình ảnh" hoặc "học số liệu".
Ngay bây giờ, mọi người thường lấy một mạng được đào tạo trước, ví dụ VGG-16, cắt bỏ các lớp FC và sử dụng phép chập cuối cùng làm vector mô tả của bạn. Bạn có thể đào tạo thêm mạng này, ví dụ như bằng cách sử dụng mạng siamese bị mất bộ ba.