Pytorch Distributed Data Parallel

发表于 2022-09-12 更新于 2023-03-19 分类于深度学习本文字数： 652 阅读时长 ≈ 1 分钟

本文记录一下Pytorch中的核心操作之一——Distributed Data Parallel (分布式数据并行)

训练时：

import torch.nn as nn
import os

os.environ["CUDA_VISIBLE_DEVICES"] = "3, 5"
multi_gpu = True
model = Model(args)
if multi_gpu:
	print("training on multi_gpu: ")
	torch.cuda.empty_cache()
	model = nn.DataParallel(model)
model.train(True)
model.cuda()

测试时：

model = Model(args)
if multi_gpu:
	print("testing on multi_gpu...")
	model = nn.DataParallel(model)
model.load_state_dict(torch.load(path))
model.train(False)
model.cuda()

参考资料：

TRACER/trainer.py at main · Karel911/TRACER · GitHub

Optional: Data Parallelism — PyTorch Tutorials 2.0.0+cu117 documentation

DataParallel — PyTorch 2.0 documentation