Tôi đã từng huấn luyện mô hình của mình trên máy cục bộ, nơi bộ nhớ chỉ đủ cho 10 ví dụ mỗi lô. Tuy nhiên, khi tôi di chuyển mô hình của mình sang AWS và sử dụng GPU lớn hơn (Tesla K80), tôi có thể điều chỉnh kích thước lô 32. Tuy nhiên, tất cả các mô hình AWS đều hoạt động rất kém với dấu hiệu quá lớn. Lý do tại sao điều này xảy ra?
Mô hình tôi hiện đang sử dụng là mô hình khởi động-resnet-v2 và vấn đề tôi nhắm đến là vấn đề về máy tính. Một lời giải thích tôi có thể nghĩ đến đó có lẽ là quy trình định mức hàng loạt làm cho nó được sử dụng nhiều hơn cho các hình ảnh hàng loạt. Để giảm thiểu, tôi đã giảm trung bình di chuyển phân rã batch_norm.
Ngoài ra, tôi có nên sử dụng bỏ học cùng với batch_norm không? Là thực hành phổ biến?
Hình ảnh đào tạo của tôi là khoảng 5000, nhưng tôi đã đào tạo khoảng 60 kỷ nguyên. Điều này được xem xét rất nhiều hay tôi nên dừng việc đào tạo sớm hơn?