从AI基准测试里，看清加速服务器发展趋势

　　新年之初

　　向各位读者报告一则喜讯!

　　刚刚过去的12月

　　戴尔易安信PowerEdge XE8545

　　在“2021中国互联网经济论坛”上

　　喜提“2021年度卓越人工智能产品”奖

　　祝贺XE8545!

　　恭喜戴尔易安信AI服务器再创佳绩!

　　

　　2021 中国互联网经济论坛由互联网周刊、中国社会科学院信息化研究中心、eNet研究院、德本咨询联合主办,自2002年起已成功举办十九届,是业内极具分量的互联网行业盛会。论坛核心板块的“金i奖”极具权威性和专业度,覆盖了AI、大数据、5G等各行业领域,历来被业内视为代表互联网精神和产业发展创新的风向标。

　　辞旧迎新之际,宜总结过去展望未来,当下AI大潮席卷全球,作为底层逻辑的AI服务器又将走向何方?或许我们能从基准( Benchmark )测试里读出一些趋势。

　　基准( Benchmark ) 测试是目前最主要的信息系统性能测试技术,它按照统一的测试规范(test specification)对被测对象进行测试,测试结果具有可比性和可再现性。在计算机领域,Benchmark测试应用最广泛和最成功的是性能测试,主要关注响应时间、传输速率和吞吐量等。

　　对生产厂商而言,Benchmark测试可以为产品进行市场宣传,发现系统瓶颈;对用户的作用则在于指导产品选择。一个优秀的Benchmark测试可以为某一领域的技术发展起到积极导向作用,引导厂商采用新技术以改进产品。

　　笔者记得20年前最火的Benchmark测试无疑是TPC-C ,当年还是小型机(简称小机)时代,PS小机是中国特色的叫法,国外称其为UNIX服务器。随着x86和云原生应用的兴起,TPC瞬间就不香了。

　　自2006年AlphaGo打败李世石后,业界急需公认的AI时代基准测试程序,万众期待之下,MLPerf AI性能基准测试于2018年由MLCommons发布。

　　MLCommons成员包括谷歌、微软、英特尔、NVIDIA、Facebook、阿里巴巴等多家在人工智能领域颇有建树的领导企业。自推出后,MLPerf AI性能基准测试以其全面性、科学性、广泛参与度,业已成为全球最受关注的AI性能基准测试,并为很多用户AI计算方案设计及选型提供重要参考依据,(关于MLPerf AI性能基准测试详细信息,欢迎移步这里查看)。

　　

　　(一)

　　AI/DL落地传统企业,

　　4GPU服务器是最佳平衡

　　在去年12月初发布的MLPerf Training v1.1基准测试中,戴尔易安信共提交了51项测试结果,包括全部八个项目的性能数据,取得多项世界纪录。

　　戴尔易安信参评了两款4GPU机型服务器——PowerEdge XE8545和R750xa,分别取得如下几项的世界第一:

　　(1)XE8545获得四卡GPU加速服务器的四项最佳:

　　目标检测Mask R-CNN(83.77分钟)

　　语音识别RNN-T(79.56分钟)

　　自然语言处理BERT(38.85分钟)

　　强化学习Mini Go(451.29分钟)

　　(2)R750xa获得四卡GPU加速服务器的语音识别RNN-T最佳(84.02分钟);

　　戴尔易安信的测试数据、配置及Log,均可以在GitHub上找到：sourl.cn/3FXXed

　　和友商专注于8颗GPU的单机测试不同,戴尔易安信更关注4颗GPU的单机和集群测试。

　　根据IDC连续三年的统计,4个双宽GPU的机型在2021年成为市场主流。主要在于随着单GPU性能的提升(如A100 vs V100),现如今4*GPU机器的性能已经超越上代8*GPU的机型。

　　另一个主要原因是AI/DL(Deep Learning)的早期采用者,互联网行业的GPU服务器占比正逐年下降,而金融/制造/政府/电信等行业占比则逐渐上升,AI/DL正逐渐落地传统行业。

　　相比互联网,传统行业很少需要高密度GPU服务器,因而4GPU服务器是当前条件下的最佳平衡。

　　(二)

　　多机多卡GPU分布式训练

　　成为必然选择

　　MLPerf Training v1.1基准测试中,除了GPU服务器单机测试外,戴尔易安信是唯一的服务器厂家提供基于GPU多机分布式训练测试结果的厂商。

　　万亿级参数规模的AI模型训练、超大规模NLP/推荐系统特征向量、更大规模数据集更短训练时间——AI时代汹涌而来的超级算力需求,仅靠单台GPU服务器已经无法满足,多机多卡GPU分布式训练成为必然选择。

　　我们可以类比一下从当年128路SMP小机到现在主流两路x86集群的进化历程,戴尔易安信认为GPU服务器的进化也是类似:单机16/20个GPU的服务器已经让位于4/8个GPU服务器的集群。

　　2021年,戴尔易安信在国内发布了《戴尔科技AI GPU分布式训练技术白皮书》,将戴尔易安信在构建AI GPU加速集群、进行AI GPU分布式训练全局优化的参考架构和最佳实践分享给更多的用户和朋友(本公众号后台回复关键字“白皮书”即可获取)。

　　特别值得一提的是参与MLPerf Training v1.1基准测试的PowerEdge XE8545,它在4U机架式空间内可以支持风冷散热的4张NVIDIA A100 80GB/500W GPU加速卡,通过最新的NVLink技术实现全互联(full mesh)。

　　XE8545服务器设计简单直接,CPU(AMD第三代EPYC米兰)与GPU、GPU与GPU、CPU与网卡及NVME SSD存储,采用PCI-E 4.0或者NVLink实现直连,可最大程度降低通信及IO延迟,同时大大简化程序员工作。

　　

　　戴尔易安信 PowerEdge XE8545

　　由于卓越的性能和市场表现,PowerEdge XE8545喜提“金i奖”荣誉,它历经层层筛选脱颖而出,表明其不凡实力已获得行业高度认可。

　　再过几年,戴尔服务器也将迎来30周年,作为“在中国,为中国”的“外资本土”企业,戴尔易安信一定不负用户和媒体的支持和厚爱,持续研发各行业都适用的IT基础设施,推动AI项目在中国传统行业真正落地。

回复该贴