Vì vậy, tôi đang cố gắng thực hiện sơ bộ về hình ảnh của con người bằng cách sử dụng lưới chập. Tôi đọc các giấy tờ ( Paper1 và Paper2 ) và liên kết stackoverflow này , nhưng tôi không chắc là tôi hiểu cấu trúc của lưới (nó không được xác định rõ trong các giấy tờ).
Câu hỏi:
Tôi có thể có đầu vào của mình theo sau là một lớp nhiễu theo sau là một lớp đối lưu, tiếp theo là một lớp gộp - sau đó - tôi có khử trước khi tôi đưa ra đầu ra của mình (giống với hình ảnh đầu vào của tôi) không?
Nói rằng tôi có một số (135.240) hình ảnh. Nếu tôi sử dụng hạt nhân 32, (12,21), tiếp theo là (2,2) gộp, tôi sẽ kết thúc với bản đồ tính năng 32 (62, 110). Bây giờ tôi có hủy nhóm để lấy 32 (124, 220) bản đồ tính năng và sau đó làm phẳng chúng không? trước khi cho lớp đầu ra (135.240) của tôi?
Nếu tôi có nhiều lớp đối lưu như vậy, tôi có nên huấn luyện từng lớp một - như trong các bộ tự động khử nhiễu được xếp chồng lên nhau không? Hoặc - tôi có thể có một cái gì đó như input-conv-pool-conv-pool-conv-pool-output (đầu ra giống như đầu vào) không? Trong trường hợp đó, việc gộp chung, khử trùng được cho là như thế nào? Tôi chỉ nên khử pool trong lớp pool cuối cùng trước khi xuất? Và một lần nữa - yếu tố thay đổi kích thước của sự hủy bỏ đó là gì? Là ý định đưa các bản đồ tính năng trở lại hình dạng của đầu vào?
Tôi có nên giới thiệu các lớp tiếng ồn sau mỗi lớp dep-pool-depool không?
Và sau đó khi tinh chỉnh - tôi có nên loại bỏ các lớp khử và giữ phần còn lại như cũ. Hoặc tôi nên loại bỏ cả lớp tiếng ồn và lớp khử
Có ai có thể chỉ cho tôi một url / tờ giấy có chi tiết kiến trúc của một bộ mã hóa tự động tích chập xếp chồng như vậy để thực hiện đào tạo trước về hình ảnh không?