Khi đọc về việc chuyển đổi lớp được kết nối đầy đủ thành lớp chập, được đăng trong http://cs231n.github.io/convolutional-networks/#convert .
Tôi chỉ cảm thấy bối rối về hai ý kiến sau đây:
Hóa ra việc chuyển đổi này cho phép chúng tôi "trượt" ConvNet ban đầu rất hiệu quả trên nhiều vị trí không gian trong một hình ảnh lớn hơn, trong một lần chuyển tiếp duy nhất.
Một ConvNet tiêu chuẩn sẽ có thể hoạt động trên mọi kích thước hình ảnh. Bộ lọc tích chập có thể trượt trên lưới hình ảnh, vậy tại sao chúng ta cần phải trượt ConvNet ban đầu ở bất kỳ vị trí không gian nào trong một hình ảnh lớn hơn?
Và
Việc đánh giá ConvNet ban đầu (với các lớp FC) một cách độc lập trên các cây trồng 224x224 của hình ảnh 384x384 trong các bước 32 pixel cho kết quả giống hệt nhau để chuyển tiếp ConvNet đã chuyển đổi một lần.
"Bước tiến của 32 pixel" nghĩa là gì ở đây? Điều đó có đề cập đến kích thước bộ lọc? Khi nói về 224 * 224 vụ mùa của hình ảnh 384 * 384, điều đó có nghĩa là chúng ta sử dụng trường tiếp nhận là 224 * 224?
Tôi đánh dấu hai bình luận này là màu đỏ trong bối cảnh ban đầu.