服务热线 : 18973175163
AI Fabric智能无损解决方案
发布日期:2020-03-21      浏览次数:2844      Tag:AI Fabric智能无损解决方案

AI Fabric重构数据中心网络, AI时代数据存储和处理效率提升25~40%

华为抓住AI时代数据中心RDMA代际切换机遇,创新地打造了下一代智能无损低时延的数 据中心网络解决方案—AI Fabric,依靠两级AI智能芯片和独特的智能拥塞调度算法,实 现RDMA业务流的零丢包、高吞吐和超低时延,加速AI时代的计算和存储效率,最终获得 专网的性能、以太网的价格,整体ROI达到45倍,为未来的DC构建一个统一融合的高效 数据中心网络。

AI Fabric独创算法,保证0丢包的基础上实现吞吐最高,时延最低

“0丢包低时延高吞吐AI Fabric的三个核心特征;区别于业界通用的无损网络技术,华为的AI Fabric能够同时 在这三个指标达到最优,而不是部分满足。

我们知道,这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战:

0丢包

会抑制带宽,导致超低吞吐, 反而增加了大流的传输时延;

低时延

意味着降低交换机队列排队, 导致低吞吐;

高吞吐

意味需要保持链路高利用率, 会导致交换机的拥塞排队,导 致小流的高时延

通用的无损网络的拥塞控制算法DCQCN,需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数达到组合达 到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,无法同时满足这三个核心指标。

25G/100G/400G组网,独创iLossless智能无损算法,如:

VIQ:虚拟输入队列

设备内部流控,解决设备内部丢包、控制尾部时延

动态ECN:动态拥塞水线

定时采集流量特征,基于定制的算法,找到合适该流量特征的ECN参数

Fast CNP:快速拥塞反馈

拥塞标记后即刻产生CNP报文,通过报文原先入口发送给发送端,以第一时间降低流速,减轻缓存拥塞

面对动态流量和海量参数挑战,华为一方面投入研究团队分析各种应用,提炼出流量模型特征;另一方面通过在交换机集成AI芯 片,实时采集流量特征和网络状态,基于AI算法,本地实时决策并动态调整网络参数配置,使得交换机缓存被合理高效利用,实现整 网0丢包。同时,全局部署的智能分析平台FabricInsight,基于全局采集到的流量特征和网络状态数据,结合AI算法,对未来的流量 模型进行预测,从全局的视角,实时修正网卡和网络的参数配置,以匹配应用的需求。

AI Fabric加速AI时代数据计算和存储的效率,带来45倍的ROI

据权威第三方测试EANTC测试结论,AI Fabric可以在HPC场景下最高降低44.3%的计算 时延,在分布式存储场景下提升25%IOPS能力,所有场景保证网络0丢包。

从商业价值角度看,AI Fabric给存储带来25%IOPS性能提升,相当于同性能下存储投 资减少25%。以512个节点组成的分布式存储系统为例,采用AI Fabric意味着384个存储节点 即可获得采用传统网络512个存储节点的IOPS性能。综合测算,存储CAPEX降低的收益与AI Fabric的投资相比,至少可带来45倍的ROI收益率。

综上所述,数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储 投资的大幅降低;根据AI Fabric可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的(ROI)能力。

AI Fabric为未来的DC构建统一融合的网络

数据中心内部有三类典型的业务:高性能计算业务 (HPC),存储业务和一般业务;每类业务对于网络有不同 的诉求,比如HPC业务的多节点进程间通信,对于时延要求 非常高;而存储业务对可靠性诉求非常高,要求网络绝对 的0丢包;一般的业务规模巨大,扩展性强,要求网络低成 本易扩展。当前的数据中心内部有三张不同的网络: Infiniband网络提供低时延的网络IPC通信, FC网络提供高 可靠0丢包的存储网络,而传统的以太网承载一般的业务。 这样当前数据中心网络整体成本很高。

网络成本高:FC专网和IB专网价格昂贵,价格是以太网的几倍。

运维代价高:基于FC的存储网络和基于IB的专用HPC网需要专人运维,不支持SDN且无法满足云网协同自动部署的诉求。

AI Fabric基于开放以太网,通过独特的AI芯片和算法,可以使得以太网络同时满足低成本,0丢包和低时延的诉求。AI Fabric同 时承载SANIPC流量和一般LAN流量,CAPEX大幅降低;传统以太网运维人员就可以管理,无需专人运维,支持SDN云网自动 化,OPEX降低至少60%以上。

AI Fabric成为AI时代的数据中心构建统一融合的网络架构的最佳选择。

AI Ready的交换机硬件架构,支撑AI Fabric长期演进

AI Fabric采用首款内嵌AI芯片的新一代交换机CloudEngine 16800,基于CLOS组网模型构建Spine-Leaf两级智能架构:计算智能 和网络智能结合,全局智能和本地智能协同,共同打造业界唯一的AI-Ready的无损低时延Fabric网络。

核心计算级智能

核心交换机CloudEngine 16800内嵌AI芯片,提供8TFlops的计算能力,能够对全网流量进行实时的学习训练,根据不同业务 流量模型的特点动态生成最优的网络参数设置,实现全局最优的网络自优化能力。

边缘网络级智能

TOR交换机CloudEngine 8861CloudEngine 8850CloudEngine 6865等边缘设备内嵌专用网络智能芯片,对网络状态实时检 测,网络参数优化,根据本地流量状态实现交换队列水线的智能调整,在最佳的时刻给予发送端最快的反馈,实现发送速率的调 整,实现网络的0丢包基础上的高吞吐。

AI Fabric成功实践

华为AI Fabric正在支撑一些领先的数字化互联网和金融企业应对AI时代的到来,加速数 据存储和处理过程,帮助企业提升决策的及时性和精准性。

AI Fabric在互联网的实践

AI Fabric加速无人驾驶技能训练,训练时间缩短40%

某互联网巨头布局无人驾驶,无人驾驶技能的训练涉及到大量的AI计算:1天采集的数据,需要几百的GPU服务器7天才能训练 完,严重影响无人驾驶的上市时间。通过华为AI Fabric提供0丢包,低时延,高吞吐的极速无损以太网络,最终使得整体训练的时 长缩短40%,加速无人驾驶的商用进程。

AI Fabric在金融行业的实践

AI Fabric加速招商银行分布式存储,IOPS性能提升20%

招商银行分行云是招行云战略的一个创新试点,为了能够给用户提供像访问本地盘一样的使用体验,采用RDMA技术提升网络吞 吐并降低CPU的消耗。AI Fabric智能拥塞调度实现了网络的零丢包、低时延、高吞吐,加速RDMA通信,经实测最终存储 集群IOPS性能提升了20%,单卷性能达到35万。

作为领先的ICT解决方案供应商,华为一直在思考和探索如何使能行业数字化,AI Fabric可以提升AI运行的效率和存储的性能, 缩短训练和存储访问的时间,助力企业数字化尽快完成转型与智能升级。

Related Information

公司总部:湖南省长沙市芙蓉区五一大道158号人瑞潇湘国际7楼719号 

电话及传真: 0731-88213866  88213899  84133289

展销中心:湖南省长沙市芙蓉区车站中路国储电脑城2楼11号

电话及传真:0731-84193289