Ý tưởng áp dụng các bộ lọc để làm một cái gì đó như xác định các cạnh, là một ý tưởng khá tuyệt vời.
Ví dụ: bạn có thể chụp ảnh số 7. Với một số bộ lọc, bạn có thể kết thúc bằng các hình ảnh được chuyển đổi nhấn mạnh các đặc điểm khác nhau của hình ảnh gốc. Bản gốc 7:
có thể được trải nghiệm bởi mạng như:
Lưu ý cách mỗi hình ảnh đã trích xuất một cạnh khác nhau của 7 bản gốc.
Điều này thật tuyệt, nhưng sau đó, giả sử lớp tiếp theo trong mạng của bạn là lớp Max Pooling.
Câu hỏi của tôi là, nói chung, không phải điều này có vẻ hơi giống như quá mức? Chúng tôi đã rất cẩn thận và cân nhắc với việc xác định các cạnh bằng các bộ lọc - bây giờ, chúng tôi không còn quan tâm đến bất kỳ vấn đề nào nữa, vì chúng tôi đã phá hủy các giá trị pixel! Xin hãy sửa tôi nếu tôi sai, nhưng chúng tôi đã đi từ 25 X 25 đến 2 X 2! Tại sao không đi thẳng đến Max Pooling sau đó, chúng ta sẽ không có cùng một thứ?
Là một phần mở rộng cho câu hỏi của tôi, tôi không thể không tự hỏi điều gì sẽ xảy ra nếu, ngẫu nhiên, mỗi trong số 4 hình vuông đều có một pixel có cùng giá trị tối đa. Chắc chắn đây không phải là một trường hợp hiếm, phải không? Đột nhiên tất cả các hình ảnh đào tạo của bạn trông giống hệt nhau.
The pooling operation provides a form of translation invariance
?