Skip to main content

🚧分布式训练

原理部分

DDP 与 NvLink 是目前大模型分布式训练最主要的技术支撑。

ddp 是 pytorch 推出的一个用于分布式训练的工具,它可以帮助我们方便地进行分布式训练。

deepspeed 是微软推出的一个用于分布式训练的工具,它可以帮助我们方便地进行分布式训练。

accelerate 是 Hugging Face 推出的一个用于分布式训练的工具, Accelerate。这不是 PyTorch 之上的高级框架,只是一个薄包装器。

分布式训练常见的2种模式:

  • 单机多卡
  • 多机多卡