微软亚洲研究院公布高性能MoE库Tutel

发布时间：2021-11-29 09:54 所属栏目：125 来源：互联网

导读：据微软亚洲研究院发布，作为目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法，MoE 能让模型学习更多信息，并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持。近期，微软亚洲研究院发布了一个高性能 MoE 库 Tutel，并在 8x 80GB NV

据微软亚洲研究院发布，作为目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法，MoE 能让模型学习更多信息，并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持。近期，微软亚洲研究院发布了一个高性能 MoE 库 ——Tutel，并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 网络的 Azure NDm A100 v4 节点上进行了实验。让我们来看一看，这个用于促进大规模 DNN 模型开发的高性能 MoE 库有哪些优势？其表现又如何？

混合专家（Mixture-of-Experts，简称 MoE）是一种深度学习模型架构，其计算成本与参数的数量呈次线性关系，因此更容易扩展。MoE 是目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法，它能让模型学习更多信息，并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持，从而以全新的方式为人类社会提供帮助。

近日，微软亚洲研究院发布了一个用于促进大规模 DNN 模型开发的高性能 MoE 库 ——Tutel，并针对已普遍使用的新 Azure NDm A100 v4 系列进行了高度优化。借助 Tutel 多样化和灵活的 MoE 算法支持，AI 领域的开发人员可以更轻松、高效地执行 MoE。与最先进的 MoE 实现方式，如 fairseq（Meta 的 Facebook AI 研究院基于 PyTorch 的 Sequence to Sequence 工具包）相比，对于单个 MoE 层，Tutel 在具有 8 个 GPU 的单个 NDm A100 v4 节点上实现了 8.49 倍的加速，在具有 512 个 A100 GPU 的 64 个 NDm A100 v4 节点上实现了 2.75 倍的加速。在端到端性能方面，得益于 all-to-all 通信优化，Tutel 在 Meta（原 Facebook 公司）的 1.1 万亿参数的 Mo

（编辑：ASP站长网）