丹东“袭警”案件引关注：部分居民可凭48小时核酸流动如何在经济衰退时投资:为什么专家在经济动荡时选择这些股票八旬老人百万巨款神秘“消失”：百万消费谁来担责年轻人为什么换不动手机了：功能一尘不变新东方回应桃子霉烂长毛：已全额退款曾称5分钟出警的唐山民警被查：28分钟才抵达岳父杀害女婿一家三口最终被执行死刑女生因狗掉河喊救命男孩下河后溺亡，太可惜了不实！江苏辟谣高考数学均分孩子被自己母亲扔河里身亡，悲剧从何而来女子怕头秃3个月不洗头，你敢尝试吗？警方:唐山被打女子为轻伤或轻微伤：是否有失公允男子举报团伙组织幼女卖淫警方回应，要严肃处理进军短视频失败！B站轻视频App宣布6月30日停运最后一餐创纪录！巴菲特午餐拍卖最终以1900万美元成交暴雪团队：《暗黑破坏神4》是给玩家的一封情书该怎么选轻薄本看这篇就够了！2022年上半年9款最值得购买的轻薄本推荐即将上市的vivo X系列手机在认证中被发现 Striim与谷歌云合作，发布新版本谷歌Brain校友掌舵新的非营利性人工智能研究实验室近期CPI上涨为美联储周三加息三次创造了可能性投资房地产?以下是你在购买第一套房产之前应该考虑的事情一个可靠的财务计划和历史观点如何让你度过动荡的时期 900万借款人如何获得学生贷款豁免道琼斯指数暴跌700点，标准普尔500指数进入熊市区域，通胀担忧扰乱市场英镑低位即将到来 CPI数据炙手可热，华尔街遭遇1月以来最大单周跌幅马来西亚建筑协会在2021财年税后利润增至4.38亿令吉上外男生向女生杯中投异物被抓：“色”即是罪 2022年的家族办公室是什么?从单户办公室到多户办公室以及介于两者之间的一切中国复星医药投资1.58亿美元收购新加坡癌症治疗中心60%股权欧元小幅走高，因风险偏好回升，关注欧洲央行会议在繁忙的央行周之前，美元保持坚挺在生活成本危机中，英国塞恩斯伯里面临投资者对工人薪酬的投票辉瑞将退出与葛兰素史克的合资企业亚洲市场涨跌互现，油价下跌后小幅上涨华尔街在上周反弹后回落，通胀成为焦点从石油到资产，西方的制裁针对的是俄罗斯经济反垄断合并专家称Frontier或捷蓝航空收购Spirit可能会获得批准 WhiteSource(现为Mend)推出了自动修复以提高安全性经纪人说罗杰·费德勒想在2023年再打一次温网拉尔夫·朗尼克在曼联是个灾难加密货币的最新颠覆可能是投资者的预期可以升级到“One UI 4.1”的三星Galaxy机型已在网上公开 OMNIVISION创建了0.56微米的像素大小三星Galaxy A12廉价手机成为世界上最畅销的手机 The Elec:“iPhone15 Pro将配备子屏幕自拍相机” 一张摩托罗拉未公布的旗舰手机的照片浮出水面，这款手机配有2亿像素的摄像头调查：在马来西亚的日本公司的商业信心看到强劲增长世界银行对乌克兰地区黯淡的经济前景发出警告

首页 >互联网 >

微软更新的DeepSpeed可以使用更少的GPU训练数万个参数的AI模型

来源： / 时间：2020-09-20 23:09:40 / 点击：次

微软今天发布了DeepSpeed库的更新版本，该库引入了一种新方法来训练包含数万亿个参数的AI模型，该模型内部的变量可为预测提供依据。该公司称这种技术称为3D并行性，它可以适应工作负载需求的各种需求，以在平衡缩放效率的同时为超大型模型提供动力。

具有数十亿个参数的单个大型AI模型在一系列具有挑战性的领域中取得了长足的进步。研究表明它们之所以表现出色是因为它们可以吸收语言，语法，知识，概念和上下文的细微差别，使他们能够总结演讲，在实时游戏聊天中进行适度的内容，解析复杂的法律文档，甚至通过搜索GitHub生成代码。但是训练模型需要大量的计算资源。根据2018年OpenAI的分析，从2012年到2018年，最大规模的AI培训运行中使用的计算量增长了300,000倍，而3.5倍的时间却翻了一番，远远超过了摩尔定律的步伐。

微软更新的DeepSpeed可以使用更少的GPU训练数万个参数的AI模型

增强的DeepSpeed利用三种技术来实现“万亿级”模型训练：数据并行训练，模型并行训练和管道并行训练。训练一个万亿参数的模型将需要至少400个Nvidia A100 GPU的组合内存(每个内存40GB)，并且Microsoft估计需要4,000个A100以50%的效率运行大约100天才能完成训练。这与微软与OpenAI共同设计的AI超级计算机无法匹敌，后者包含10,000多个图形卡，但是要达到如此高的计算效率往往很困难。

DeepSpeed将大型模型划分为四个流水线级之间的较小组件(层)。每个流水线阶段中的层进一步划分为四个“工人”，它们执行实际的培训。每个管道都在两个并行数据实例之间复制，并且工作线程被映射到多GPU系统。由于有了这些和其他性能改进，微软表示，一个万亿参数的模型可以扩展到多达800个Nvidia V100 GPU。

DeepSpeed的最新版本还附带ZeRO-Offload，该技术可利用GPU及其主机CPU上的计算和内存资源，从而在一台V100上训练多达130亿个参数的模型。微软声称这比最新技术大10倍，这使得培训人员可以使用更少的计算资源来进行数据科学家的培训。

微软在博客中写道：“这些(DeepSpeed中的新技术)提供了极高的计算，内存和通信效率，并且通过数十亿到数万亿的参数来支持模型训练。“这些技术还允许极长的输入序列，并通过单个GPU，具有数千个GPU的高端集群或具有非常慢的以太网网络的低端集群来打开硬件系统的电源……我们[继续]进行快速创新。，为深度学习培训突破了速度和规模的界限。”

标签：微软/DeepSpeed/GPU训练/AI模型/

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除。

相关阅读

微软更新的DeepSpeed可以使用更少的GPU训练数万个参数的AI模型