Tôi đang nghiên cứu các mạng thần kinh tích chập (CNN) do các ứng dụng của chúng trong thị giác máy tính. Tôi đã quen thuộc với các mạng thần kinh tiêu chuẩn nguồn cấp dữ liệu, vì vậy tôi hy vọng rằng một số người ở đây có thể giúp tôi thực hiện thêm bước hiểu biết về CNN. Đây là những gì tôi nghĩ về CNNs:
- Trong các NN cấp dữ liệu truyền thống, chúng tôi có dữ liệu huấn luyện trong đó mỗi phần tử bao gồm một vectơ đặc trưng mà chúng tôi nhập vào NN trong "lớp đầu vào", vì vậy, với nhận dạng hình ảnh, chúng tôi chỉ có thể có mỗi pixel là một đầu vào. Đó là những vectơ đặc trưng của chúng tôi. Ngoài ra, chúng ta có thể tự tạo các vectơ đặc trưng khác - có thể nhỏ hơn.
- Ưu điểm của CNN là nó có thể tạo ra các vectơ đặc trưng mạnh hơn, bất biến hơn đối với biến dạng hình ảnh và vị trí. Như hình ảnh sau đây cho thấy (từ hướng dẫn này ), các CNN tạo ra các bản đồ tính năng sau đó được đưa vào mạng thần kinh tiêu chuẩn (vì vậy thực sự đó là một bước tiền xử lý khổng lồ).
- Cách chúng ta có được các tính năng "tốt hơn" đó là bằng cách xen kẽ và lấy mẫu phụ. Tôi hiểu cách lấy mẫu phụ hoạt động. Đối với mỗi bản đồ tính năng, chỉ cần lấy một tập hợp con các pixel hoặc chúng ta có thể lấy trung bình các giá trị pixel.
Nhưng điều tôi chủ yếu bối rối là cách thức tích chập hoạt động. Tôi quen thuộc với các kết luận từ lý thuyết xác suất (mật độ cho tổng của hai biến ngẫu nhiên), nhưng chúng hoạt động như thế nào trong CNN và tại sao chúng hiệu quả?
Câu hỏi của tôi tương tự như câu hỏi này nhưng đặc biệt, tôi không chắc tại sao bước tích chập đầu tiên hoạt động.