分布式训练 | Swift's Blog

在面试中，遇到有些面试官会问分布式训练的有关问题，在此总结一下。

分布式训练的并行方式主要分如下两种：

数据并行：将数据集切分放到各计算节点，每个计算节点的计算内容完全一致，并在多个计算节点之间传递模型参数。数据并行可以解决数据集过大无法在单机高效率训练的问题，也是工业生产中最常用的并行方法。
模型并行：通常指将模型单个算子计算分治到多个硬件设备上并发计算，以达到计算单个算子计算速度的目的。一般会将单个算子的计算，利用模型并行的方式分配在配置相同的几个硬件上，进行模型存储和计算，以保证计算步调一致。

这里详细介绍数据并行的两种训练架构：

Parameter Server：该架构可以对模型参数的存储进行分布式保存，因此对于存储超大规模模型参数的训练场景十分友好。因此在个性化推荐场景中（任务需要保存海量稀疏特征对应的模型参数）应用广泛。
Collective：多被用于视觉、自然语言处理等需要复杂网络计算（计算密集型）的模型训练任务场景。

Parameter Server

PS分为两大部分：server group和多个worker group，另外resource manager负责总体的资源分配调度。

server group内部包含多个server node，每个server node负责维护一部分参数，server manager负责维护和分配server资源；
每个worker group对应一个application（即一个模型训练任务），worker group之间以及worker group内部的worker node互相之间并不通信，worker node只与server通信。

总结一下Parameter Server实现分布式机器学习模型训练的要点：

主要有 TreeAllReduce 和 RingAllReduce 两种。

该架构已被抛弃，存在如下两个问题：

每一轮的训练迭代都需要所有卡都将数据同步完做一次Reduce才算结束。如果并行的卡很多的时候，就涉及到计算快的卡需要去等待计算慢的卡的情况，造成计算资源的浪费。
每次迭代所有的GPU卡都需要针对全部的模型参数跟Reduce卡进行通信，如果参数的数据量大的时候，那么这种通信开销也是非常庞大，而且这种开销会随着卡数的增加而线性增长。

与 TreeAllReduce 不同， RingAllreduce 算法的每次通信成本是恒定的，与系统中GPU的数量无关，完全由系统中gpu之间最慢的连接决定。

RingAllReduce 中的GPU排列在一个逻辑环中。每个GPU应该有一个左邻居和一个右邻居。它只会向其右邻居发送数据，并从其左邻居接收数据。

该算法分两步进行：