vá đào tạo khôn ngoan và đào tạo tích chập hoàn toàn trong mạng lưới thần kinh tích chập hoàn toàn

Trong bài báo về mạng nơ ron tích chập hoàn toàn , các tác giả đề cập đến cả vá đào tạo khôn ngoan và đào tạo chập hoàn toàn.

Sự hiểu biết của tôi cho việc xây dựng tập huấn luyện như sau:

Đưa ra một M*Mhình ảnh, trích xuất các hình ảnh phụ với N*N, trong đó ( N<M). Các hình ảnh phụ được chọn được chồng chéo với nhau. Đối với mỗi lô trong quá trình đào tạo, nó có thể bao gồm tất cả các hình ảnh phụ cho một hình ảnh nhất định hoặc nhiều hình ảnh.

Tôi hiểu có đúng không? Vậy thì sự khác biệt giữa đào tạo vá lỗi và đào tạo tích chập hoàn toàn là gì? Tôi bao gồm các phần liên quan như là một tài liệu tham khảo.

— người dùng3125
nguồn

Bạn có quyền đó.

— Michael R. Chernick

Về cơ bản, đào tạo tích chập hoàn toàn lấy toàn bộ hình ảnh MxM và tạo đầu ra cho tất cả các tiểu phần trong một chuyển tiếp ConvNet duy nhất . Đào tạo chắp vá cắt xén rõ ràng các tiểu phần và tạo đầu ra cho mỗi tiểu phần trong các lần chuyển tiếp độc lập . Do đó, đào tạo tích chập hoàn toàn thường nhanh hơn đáng kể so với đào tạo chắp vá.

Vì vậy, để đào tạo tích chập hoàn toàn, bạn thực hiện cập nhật như thế này:

Nhập toàn bộ hình ảnh MxM (hoặc nhiều hình ảnh)
Đẩy qua ConvNet -> lấy toàn bộ bản đồ đầu ra (kích thước tối đa MxM trên mỗi hình ảnh, có thể nhỏ hơn)
Thực hiện cập nhật bằng cách mất tất cả các đầu ra

Bây giờ trong khi điều này khá nhanh, nó hạn chế quá trình lấy mẫu đào tạo của bạn so với đào tạo theo chiều dọc: Bạn buộc phải thực hiện nhiều cập nhật trên cùng một hình ảnh(thực ra, tất cả các cập nhật có thể có cho tất cả các tiểu phần) trong một bước đào tạo của bạn. Đó là lý do tại sao họ viết rằng đào tạo tích chập hoàn toàn chỉ giống với đào tạo chắp vá, nếu mỗi lĩnh vực tiếp nhận (hay còn gọi là phụ) của một hình ảnh được chứa trong một đợt đào tạo của quy trình đào tạo chắp vá (đối với đào tạo theo chiều dọc, bạn cũng có thể có hai trong số mười khả năng các hình ảnh con từ hình ảnh A, ba trong số tám hình ảnh con có thể có từ hình ảnh B, vv trong một lô). Sau đó, họ lập luận rằng bằng cách không sử dụng tất cả các kết quả đầu ra trong quá trình huấn luyện tích chập hoàn toàn, bạn sẽ tiến gần hơn đến việc đào tạo lại một lần nữa (vì bạn không thực hiện tất cả các cập nhật có thể cho tất cả các hình ảnh con trong một bước đào tạo). Tuy nhiên, bạn lãng phí một số tính toán. Ngoài ra, trong Mục 4.4 / Hình 5,

— kẻ cướp
nguồn

Xin chào robintibor, cảm ơn đã trả lời. Bạn đề cập đến việc nhập vào toàn bộ hình ảnh MxM (hoặc nhiều hình ảnh). Bạn có nghĩa là cho toàn bộ hình ảnh vào mạng mà không tạo hình ảnh phụ trước khi cho mạng? Trong thực tế, nếu kích thước hình ảnh rất lớn, chúng ta thường phải tạo hình ảnh phụ lúc đầu. Tôi hiểu có đúng không?

— dùng3125

Hi @ user3125 có nguồn cấp dữ liệu trong toàn bộ hình ảnh, hoặc thậm chí nhiều hình ảnh trong một lô. Tôi đoán rằng hiếm khi xảy ra hình ảnh 2d quá lớn để vượt qua mạng theo bộ nhớ, thay vào đó có thể bạn phải giảm kích thước lô của mình, tức là số lượng hình ảnh (hoàn chỉnh, không phụ) mà bạn cung cấp cho mạng cùng một lúc thời gian.

— robintibor

Xin chào robintibor, cảm ơn đã làm rõ. Kịch bản của tôi là chúng tôi có số lượng hình ảnh hạn chế (200 ~ 300) với kích thước pixel lớn (980 * 980). Do đó, tôi đang nghĩ đến việc tạo ra số lượng lớn hình ảnh nhỏ cho mục đích đào tạo.

— dùng3125

Ok tôi hiểu rồi. Đối với hình ảnh 980 * 980 chiều và ba kênh màu, bạn nên có khoảng 11 MB cho mỗi hình ảnh giả sử float32 = 4 byte mỗi pixel: (980 * 980 * 3 * 4 Byte) / (1024 ^ 2.0) = 10.9909 MB. Vì vậy, một số hình ảnh có thể dễ dàng phù hợp với GPU thông thường, nhưng sau đó cấu trúc mạng của bạn (số lượng bộ lọc, số lớp, khi bạn lấy mẫu xuống, v.v.) xác định dung lượng bộ nhớ được sử dụng cho toàn bộ chuyển tiếp ngược. Tôi khuyên bạn nên thử đẩy toàn bộ hình ảnh qua mạng và tăng kích thước lô (số lượng hình ảnh được xử lý cùng một lúc) cho đến khi nó gặp sự cố :)

— robintibor 20/03/2017