Tôi muốn sử dụng một mạng lưới thần kinh để phân loại hình ảnh. Tôi sẽ bắt đầu với CaffeNet được đào tạo trước và đào tạo nó cho ứng dụng của mình.
Làm thế nào tôi nên chuẩn bị các hình ảnh đầu vào?
Trong trường hợp này, tất cả các hình ảnh là của cùng một đối tượng nhưng có các biến thể (nghĩ: kiểm soát chất lượng). Chúng ở các tỷ lệ / độ phân giải / khoảng cách / điều kiện ánh sáng khác nhau (và trong nhiều trường hợp tôi không biết tỷ lệ). Ngoài ra, trong mỗi hình ảnh có một khu vực (được biết) xung quanh đối tượng quan tâm cần được bỏ qua bởi mạng.
Tôi có thể (ví dụ) cắt trung tâm của mỗi hình ảnh, được đảm bảo chứa một phần của đối tượng quan tâm và không có khu vực nào bị bỏ qua; nhưng có vẻ như nó sẽ vứt bỏ thông tin và kết quả sẽ không thực sự giống nhau (có thể là 1,5 lần thay đổi).
Tăng cường dữ liệu
Tôi đã nghe nói về việc tạo thêm dữ liệu đào tạo bằng cách cắt ngẫu nhiên / gương / vv, có phương pháp chuẩn nào cho việc này không? Bất kỳ kết quả về mức độ cải thiện nó tạo ra độ chính xác phân loại?