- Đối với TensorFlow:
TensorFlow Sử dụng GPU
Dưới đây là mã mẫu về cách sử dụng, do đó, đối với mỗi tác vụ được chỉ định danh sách với các thiết bị / thiết bị:
# Creates a graph.
c = []
for d in ['/gpu:2', '/gpu:3']:
with tf.device(d):
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3])
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2])
c.append(tf.matmul(a, b))
with tf.device('/cpu:0'):
sum = tf.add_n(c)
# Creates a session with log_device_placement set to True.
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# Runs the op.
tf sẽ sử dụng GPU theo mặc định để tính toán ngay cả khi dành cho CPU (nếu có GPU được hỗ trợ). vì vậy bạn chỉ có thể thực hiện một vòng lặp for: "for d in ['/ gpu: 1', '/ gpu: 2', '/ gpu: 3' ... '/ gpu: 8',]:" và trong "tf.device (d)" nên bao gồm tất cả các tài nguyên GPU thể hiện của bạn. Vì vậy, tf.device () sẽ thực sự được sử dụng.
Đào tạo mô hình máy ảnh nhân rộng cho nhiều GPU
- Máy ảnh
Đối với Keras bằng cách sử dụng Mxnet hơn args.num_gpus , trong đó num_gpus là danh sách các GPU cần thiết của bạn.
def backend_agnostic_compile(model, loss, optimizer, metrics, args):
if keras.backend._backend == 'mxnet':
gpu_list = ["gpu(%d)" % i for i in range(args.num_gpus)]
context = gpu_list)
if args.num_gpus > 1:
print("Warning: num_gpus > 1 but not using MxNet backend")
- horovod.tensorflow
Trên tất cả các Uber mở Horovod gần đây và tôi nghĩ là tuyệt vời:
import tensorflow as tf
import horovod.tensorflow as hvd
# Initialize Horovod
# Pin GPU to be used to process local rank (one GPU per process)
config = tf.ConfigProto()
config.gpu_options.visible_device_list = str(hvd.local_rank())
# Build model…
loss = …
opt = tf.train.AdagradOptimizer(0.01)
# Add Horovod Distributed Optimizer
opt = hvd.DistributedOptimizer(opt)
# Add hook to broadcast variables from rank 0 to all other processes during
# initialization.
hooks = [hvd.BroadcastGlobalVariablesHook(0)]
# Make training operation
train_op = opt.minimize(loss)
# The MonitoredTrainingSession takes care of session initialization,
# restoring from a checkpoint, saving to a checkpoint, and closing when done
# or an error occurs.
with tf.train.MonitoredTrainingSession(checkpoint_dir=“/tmp/train_logs”,
hooks=hooks) as mon_sess:
while not mon_sess.should_stop():
# Perform synchronous training.