微软更新的DeepSpeed可以使用更少的GPU训练数万个参数的AI模型

微软今天发布了DeepSpeed库的更新版本,该库引入了一种新方法来训练包含数万亿个参数的AI模型,该模型内部的变量可为预测提供依据。该公司称这种技术称为3D并行性,它可以适应工作负载需求的各种需求,以在平衡缩放效率的同时为超大型模型提供动力。

具有数十亿个参数的单个大型AI模型在一系列具有挑战性的领域中取得了长足的进步。研究表明它们之所以表现出色是因为它们可以吸收语言,语法,知识,概念和上下文的细微差别,使他们能够总结演讲,在实时游戏聊天中进行适度的内容,解析复杂的法律文档,甚至通过搜索GitHub生成代码。但是训练模型需要大量的计算资源。根据2018年OpenAI的分析,从2012年到2018年,最大规模的AI培训运行中使用的计算量增长了300,000倍,而3.5倍的时间却翻了一番,远远超过了摩尔定律的步伐。

微软更新的DeepSpeed可以使用更少的GPU训练数万个参数的AI模型

增强的DeepSpeed利用三种技术来实现“万亿级”模型训练:数据并行训练,模型并行训练和管道并行训练。训练一个万亿参数的模型将需要至少400个Nvidia A100 GPU的组合内存(每个内存40GB),并且Microsoft估计需要4,000个A100以50%的效率运行大约100天才能完成训练。这与微软与OpenAI共同设计的AI超级计算机无法匹敌,后者包含10,000多个图形卡,但是要达到如此高的计算效率往往很困难。

DeepSpeed将大型模型划分为四个流水线级之间的较小组件(层)。每个流水线阶段中的层进一步划分为四个“工人”,它们执行实际的培训。每个管道都在两个并行数据实例之间复制,并且工作线程被映射到多GPU系统。由于有了这些和其他性能改进,微软表示,一个万亿参数的模型可以扩展到多达800个Nvidia V100 GPU。

DeepSpeed的最新版本还附带ZeRO-Offload,该技术可利用GPU及其主机CPU上的计算和内存资源,从而在一台V100上训练多达130亿个参数的模型。微软声称这比最新技术大10倍,这使得培训人员可以使用更少的计算资源来进行数据科学家的培训。

微软在博客中写道:“这些(DeepSpeed中的新技术)提供了极高的计算,内存和通信效率,并且通过数十亿到数万亿的参数来支持模型训练。“这些技术还允许极长的输入序列,并通过单个GPU,具有数千个GPU的高端集群或具有非常慢的以太网网络的低端集群来打开硬件系统的电源……我们[继续]进行快速创新。 ,为深度学习培训突破了速度和规模的界限。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除。