Tôi nhận được về tỷ lệ sử dụng tương tự khi tôi đào tạo các mô hình bằng cách sử dụng Tensorflow. Lý do khá rõ ràng trong trường hợp của tôi, tôi tự chọn một lô mẫu ngẫu nhiên và gọi tối ưu hóa cho từng lô riêng biệt.
Điều đó có nghĩa là mỗi lô dữ liệu nằm trong bộ nhớ chính, sau đó nó được sao chép vào bộ nhớ GPU trong đó phần còn lại của mô hình, sau đó truyền / lùi và cập nhật được thực hiện trong gpu, sau đó thực thi được đưa trở lại mã của tôi nơi tôi lấy một đợt khác và gọi tối ưu hóa trên đó.
Có một cách nhanh hơn để làm điều đó nếu bạn dành vài giờ để thiết lập Tensorflow để thực hiện tải hàng loạt song song từ các bản ghi TF được chuẩn bị trước.
Tôi nhận ra rằng bạn có thể hoặc không thể sử dụng tenorflow dưới máy ảnh, nhưng vì kinh nghiệm của tôi có xu hướng tạo ra những con số sử dụng rất giống nhau, tôi đi ra ngoài bằng cách gợi ý rằng có một liên kết nhân quả rất có thể rút ra từ những tương quan này. Nếu khung của bạn đang tải từng lô từ bộ nhớ chính vào GPU mà không tăng hiệu quả / độ phức tạp của tải không đồng bộ (mà chính GPU có thể xử lý), thì đây sẽ là kết quả mong đợi.