Tôi đang cố gắng hiểu rõ hơn về mạng nơ ron tích chập bằng cách viết mã Python không phụ thuộc vào các thư viện (như Convnet hoặc TensorFlow) và tôi bị mắc kẹt trong tài liệu về cách chọn giá trị cho ma trận hạt nhân, khi thực hiện tích chập trên một hình ảnh.
Tôi đang cố gắng hiểu các chi tiết triển khai trong bước giữa các bản đồ đặc trưng trong hình ảnh bên dưới hiển thị các lớp của CNN.
Theo sơ đồ này:
Hạt nhân ma trận hạt nhân "bước" qua hình ảnh, tạo ra một bản đồ đặc trưng, trong đó mỗi pixel là tổng của tất cả các sản phẩm có yếu tố giữa mỗi trọng lượng của hạt nhân (hoặc ma trận bộ lọc) và giá trị pixel tương ứng của hình ảnh đầu vào.
Câu hỏi của tôi là: làm thế nào để chúng tôi khởi tạo trọng số của ma trận kernel (hoặc bộ lọc)?
Trong phần trình diễn ở trên, chúng chỉ đơn giản là 1 và 0, nhưng tôi cho rằng điều này được đơn giản hóa từ lợi ích của sơ đồ.
Là những trọng lượng được đào tạo trong một số bước tiền xử lý? Hoặc được lựa chọn rõ ràng bởi người dùng?