乾明 发自 上海 
量子位 报道 | 公众号 QbitAI

每一次华为新动作,点赞有之,质疑亦随之。

9月18日刚在全联接大会上发布的“全球最快AI产品”就是这样。

但在现场、在华为内部来看,这只不过是“华为计算战略”艰苦奋斗的开花结果,只是这盘芯片和计算力大棋局里关键一子。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网△ 华为Cloud & AI产品与服务总裁侯金龙

而且相比Atlas(古希腊神话里的“大力神”),实际不到三年时间里,华为已经发布了10款商用芯片:

鲲鹏916、920;麒麟970、980、810、990、990 5G;昇腾310、910;鸿鹄818。

按外泄的规划,接下来的两年内,至少有6款芯片发布落地。

无论是计算领域,还是半导体行业,如此阵仗,势头都异常猛烈。

所以背后原因究竟是什么?华为又究竟想做什么?

计算战略发布后,是时候对这盘大棋来次完整起底,揭秘华为在计算背后的种种规划与布局。

15年苦功夫,目前投入2万名工程师

围绕计算这个产业投资,十几年前已经开始了。

其中最具标志性的事件是2004年4月,旗下芯片公司海思半导体成立。

‍‍华为Cloud & AI产品与服务总裁侯金龙透露了这背后的投入:

从2004年开始投资研发第一颗嵌入式处理芯片,目前投入超过2万名工程师,形成了以“鲲鹏+昇腾”为核心的基础芯片族。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

基础芯片族带来的意义非常直接。华为成为了业界唯一同时拥有计算架构中“CPU,NPU,存储控制,网络互连,智能管理”5大关键芯片的厂商。

但俱往矣。

从产品发布的节奏来看,华为对芯片投资的力度还在快速加强,迭代也越来越快。

华为投资芯片的策略,此前也有曝光,总结起来就是三个关键词:量产一代、研发一代、规划一代。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

以鲲鹏系列处理器为例,从2007年走到现在已历时12年,现在是第三代芯片。

现在华为释放出的最新信号是:鲲鹏+昇腾会长期演进,按照每年推出一代的节奏来提升竞争力。

这也是华为在不到3年内推出10款芯片的直接推动力量之一。

当然,上述种种努力和产品,只是果,细究“因”,则是华为对于行业变迁趋势的核心判断。

华为芯的机会:趋势变迁下的2万亿市场

在华为看来,当前的计算产业正在发生深刻的变化,尤其是整个社会向智能时代的迈进,这带来了变革与挑战,也带来了机会。

全联接大会上,胡厚崑援引了Gartner的数据——全球计算产业总空间为两万亿美元。在他看来,这是一片大蓝海,华为将坚定在计算领域的投入,并推进落地。

侯金龙进一步阐释四大趋势,也可以说是华为投资芯片进入这一蓝海的主要切入点:

首先,数据中心不够用了

对于数据中心来说,以前其承担的职能更多的是存、但未来更重要的是算,数据中心正在逐步演变为计算中心。

最直接的体现就是,大规模数据中心中服务器越来越多。就以华为云的数据中心为例,有60%都是用于计算的服务器。

可以说,计算正在成为数据中心的主体,这就是华为推动鲲鹏系列芯片的重要原因之一,也是鲲鹏芯片的使用场景。

与此同时,整个行业对AI算力需求也越来越大,而且来得更加汹涌,从2012年到2018年,AI算力消耗几乎增长了30万倍。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

现在每年的增长超过10倍,到2025年,AI算力将会占据数据中心算力的80%以上。

正是在如此算力需求下,华为推出了昇腾910以及Altas 900等AI计算产品。

其次,端边芯片与中心芯片还有大差距

在华为看来,Arm在生态上的优势会逐渐向数据中心延伸。对于华为来说,这是挑战,也是机会。

现场,侯金龙也分享了一组数据:

2018年,Arm处理器出货量230亿片,主要用于端和边,数据中心侧只有3000万片,这是数百倍的差距。

每年十几亿部手机都是Arm结构的,2019年华为智能手机总的算力,将是今年全球数据中心新增算力的2倍,而且手机上的几百万应用都是基于Arm生态。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

以前基于Arm的技术,之所以不能在数据中心使用,核心的限制是性能。

但解决问题导向,华为现已找到对策。

其今年发布的鲲鹏920是兼容Arm,多核、高并发,把四颗核心并入了一颗核心,其性能超过业内通用CPU 20%的性能。

而且现在的计算,可以让简单的计算在终端进行,复杂的计算可以在云上进。

如果继续用X86架构在云上计算终端的任务,效率就会降低40%,反之如果运用Arm架构,则提升40%。

第三,计算该绿

高性能的计算虽然更有效率,但背后也有大量的碳排放。

美国马萨诸塞大学阿姆赫斯特分校做过研究,训练一个单一AI模型,会产生180吨的碳排放。

这相当于普通汽车整个服役期排放量的3倍,平均地球人30年日常生活的碳排放。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

算力与效率背后,也需要对能源与环境更友好。从芯片层面上来看,要在更小的功耗下实现更高的性能。

在这方面,华为的底气很足。

侯金龙说,华为的Atlas 900 AI训练集群,算力达到256 PFLOPS只需要16个机柜。

要实现这样的算力,如果用CPU需要6195个机柜, 用GPU需要208个机柜,而NPU如昇腾只要128个机柜。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

这背后,主要归功于昇腾架构对深度学习业务的优化。

此外,经过华为系统级优化,如板级液冷、柜级密闭绝热等,整个集群的功耗从4万kW降到736kW,降低50多倍。

最后,摩尔定律放缓已成事实

经过数十年的快速迭代发展,高速的摩尔定律已经难以实现。

过去5年,通用CPU的发展遇到了许多技术瓶颈,单核性能平均每年提升不足10%,摩尔定律放缓已经成为事实。

想要进一步实现提高技术能力,在晶体管上打主意太难了,需要寻找其他路径。

这也是华为将基础研究作为整体计算战略关键组成部分的原因,最具代表性的成果,就是华为自研的达芬奇架构。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

未来,华为的目标是通过一系列的技术创新,打破能效墙、打破散热墙、打破优化墙、 打破内存墙、打破高速IO墙,进一步释放计算潜能。

总之,在华为看来,计算产业已进入架构创新的黄金时代,充裕、高性能、多样性、绿色、触手可及‍的算力将是智能社会发展的动力。

这需要更高性能的芯片做支撑,但仅仅依靠芯片还不够。

在整个华为计算战略中,芯片只是一部分。

解读华为计算战略:硬件开放与软件开源

整体来看,华为计算图景可以归为“一云两翼双引擎+开放的生态”。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

其中一云,是华为云。

这是华为计算的核心输出途径——芯片不直接对外销售,以云服务和部件的形式面向客户,优先支持合作伙伴发展整机。

双引擎是指“鲲鹏”与“昇腾”。基于此打造芯片簇,构筑异构的计算,是华为计算战略的基础也是主要动力来源。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

两翼则是智能计算业务、智能数据与存储业务,是计算的商业模式和直接应用场景。

开放的生态,则是整个华为计算战略的“点睛之笔”,也是今年华为全联接大会的重头戏。

这一方面,主要分为硬件开放和软件开源两大部分,目标是使能广大的合作伙伴, 形成一个开放的产业生态。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

硬件开放

如何落地?具体到商业模式上,是基于芯片等对外提供主板/SSD/网卡/RAID卡/Atlas模组和板卡,优先支持合作伙伴发展服务器和PC等计算产品,以及自己的品牌。

华为也在全联接大会上表示,其TaiShan服务器以及华为终端的PC机,聚焦做高端和内部配套,条件成熟时,将停止TaiShan服务器的销售业务。

在全联接大会上,除了Altas,华为也发布了以下硬件新品:

鲲鹏主板,用于快速开发服务器和台式机产品。采用 xPU高速互联、多合一SoC、100GE高速I/O等关键技术,不仅搭载鲲鹏处理器,还内置BMC芯片、BIOS软件。与此同时,华为也将开放主板接口规范和设备管理规范。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

通用服务器TaiShan系列 ,号称“最强算力”的通用服务器。具备至少64核、8个内存通道、PCIe 4.0、多合一SoC、xPU高速互联、100GE高速I/O等六个特征。

而且,面向数据中心分布式演进需求以及边缘计算需求,华为还提供了存储密集型、计算密集型、边缘计算等多款服务器产品。

Atlas全系列产品,覆盖云、边、端全场景,面向训练和推理提供强劲算力。主要基于昇腾910和310 AI处理器,华为推出Atlas 900、AI训练服务器 Atlas 800、和AI训练卡Atlas 300。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

其中,Atlas 800在4U空间集成了8颗昇腾910 AI处理器,可提供2 PFLOPS的超强算力,算力密度是业界同类产品的2.5倍,内置32个硬件解码器,每秒可完成16384张1080P图片解码,可以与训练并行处理。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网8个Atlas 800组成的机柜,内置64颗昇腾910芯片,Atlas 900训练集群最少由16个机柜组成。

Atlas 300可提供256 TFLOPS的算力,是当前业界主流训练卡的2倍,每秒训练的图片数量从965张提升到1802张。可实现梯度参数和数据集并行传输,最高可降低70%的梯度同步时延。

此外,华为也发布了112款基于鲲鹏和昇腾的云服务,包括69款基于鲲 鹏的云服务和43款基于昇腾的云服务,让客户和合作伙伴们能 更容易的获取鲲鹏和昇腾的算力。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

华为介绍称,基于昇腾的图像搜索服务、内容审核服务,价格下调70%。

软件开源

软件开源,与硬件开放相伴而生,是开放硬件能力的放大器。

继8月23日华为宣布开源AI计算框架MindSpore、8月31日放出方舟编译器框架代码之后,全联接大会上华为又放出多个软件开源计划:

2019年12月31日开源服务器操作系统,2020年6月开源可覆盖企业70%以上的数据库业务场景的GaussDB OLTP单机版数据库。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

之后,华为将支持基于 openEuler的合作伙伴发行商业版操作系统,支持各行业主流应用和软件开发商把软件和应用迁移到基于openEuler的操作系统 上。

而且,华为也将与深之度、中标麒麟、天津麒麟、中移苏研、普华等伙伴计划联合推出openEuler开源社区 (http://openEuler.org)。

怎么理解华为有所为,有所不为?

伴随着华为计算战略的披露,“华为有所为,有所不为”也屡次被摆到台面上。

到底怎么理解华为有所为,有所不为?

侯金龙也进一步给出了解释,华为的聚焦点是重点投资计算架构创新,处理器的研发,以及华为云。

在这之外,华为不做应用,但免费支持主流应用和软件的迁移。

起底华为计算战略:十五年研发下苦功,三年连发10芯加速,目前2万工程师奋战…-编程知识网

更能体现这一态度的是华为对开发者的支持。

侯金龙表示,开发者是产业的灵魂,未来5年培养500万开发者,将投入15 亿美金用于发展产业生态。

那么,华为到底想要做什么?

胡厚崑也在采访中给出了答案:面向智能时代,华为想要做的是成为数字世界的“底座”。

如此愿景,你怎么看?

作者系网易新闻·网易号“各有态度”签约作者

AI社群 | 与优秀的人交流

AI内参 | 关注行业发展

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !