Lớp nào tiêu tốn nhiều thời gian hơn trong đào tạo CNN? Các lớp kết hợp với các lớp FC


11

Trong Mạng thần kinh Convolutional, lớp nào tiêu tốn thời gian tối đa trong đào tạo? Các lớp kết hợp hoặc các lớp được kết nối đầy đủ? Chúng ta có thể lấy kiến ​​trúc AlexNet để hiểu điều này. Tôi muốn thấy thời gian chia tay của quá trình đào tạo. Tôi muốn so sánh thời gian tương đối để chúng tôi có thể lấy bất kỳ cấu hình GPU không đổi.

Câu trả lời:


11

LƯU Ý: Tôi đã thực hiện các tính toán này một cách cụ thể, vì vậy một số lỗi có thể đã xuất hiện. Vui lòng thông báo về bất kỳ lỗi nào để tôi có thể sửa nó.

Nói chung trong bất kỳ CNN nào, thời gian đào tạo tối đa đều diễn ra trong Back-Propagation của các lỗi trong Lớp được kết nối đầy đủ (tùy thuộc vào kích thước hình ảnh). Ngoài ra bộ nhớ tối đa cũng bị chiếm bởi chúng. Dưới đây là một slide từ Stanford về các thông số VGG Net:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Rõ ràng bạn có thể thấy các lớp được kết nối đầy đủ đóng góp vào khoảng 90% các tham số. Vì vậy, bộ nhớ tối đa bị chiếm bởi chúng.

(3*3*3)(3*3*3)224*224224*224*(3*3*3)64224*22464*224*224*(3*3*3)87*106

56*56*25656*56(3*3*256)56*56256*56*56*(3*3*256)1850*106

StrTôide= =1

chmộtnnetôiSobạntpbạnt*(pTôixetôiÔibạntpbạntheTôight*pTôixetôiÔibạntpbạntwTôidth)*(fTôitôiterheTôight*fTôitôiterwTôidth*chmộtnnetôiSTôinpbạnt)

Nhờ có GPU nhanh, chúng tôi có thể dễ dàng xử lý các tính toán khổng lồ này. Nhưng trong các lớp FC, toàn bộ ma trận cần phải được tải, gây ra các vấn đề về bộ nhớ, thường không phải là trường hợp của các lớp chập, do đó việc đào tạo các lớp chập vẫn dễ dàng. Ngoài ra, tất cả những thứ này phải được tải trong bộ nhớ GPU chứ không phải RAM của CPU.

Ngoài ra đây là biểu đồ tham số của AlexNet:

nhập mô tả hình ảnh ở đây

Và đây là so sánh hiệu suất của các kiến ​​trúc CNN khác nhau:

nhập mô tả hình ảnh ở đây

Tôi đề nghị bạn kiểm tra Bài giảng CS231n của Đại học Stanford để hiểu rõ hơn về các ngõ ngách của kiến ​​trúc CNN.


4

Vì CNN chứa hoạt động tích chập nhưng DNN sử dụng phân kỳ Xây dựng để đào tạo. CNN phức tạp hơn về mặt ký hiệu Big O.

Để tham khảo:

1) Độ phức tạp thời gian CNN
https://arxiv.org/pdf/1412.1710.pdf

2) Các lớp được kết nối đầy đủ / Mạng lưới thần kinh sâu (DNN) / Perceptionron đa lớp (MLP) https://www.researchgate.net/post/What_is_the_time_complexity_of_Mult lớp_Perceptron_MLP_and_other_neural_networks

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.