华为抓住AI时代数据中心RDMA代际切换机遇,创新地打造了下一代智能无损低时延的数
据中心网络解决方案—AI Fabric,依靠两级AI智能芯片和独特的智能拥塞调度算法,实
现RDMA业务流的零丢包、高吞吐和超低时延,加速AI时代的计算和存储效率,最终获得
专网的性能、以太网的价格,整体ROI达到45倍,为未来的DC构建一个统一融合的高效 数据中心网络。
“0丢包”,“低时延”和“高吞吐”是AI Fabric的三个核心特征;区别于业界通用的无损网络技术,华为的AI Fabric能够同时 在这三个指标达到最优,而不是部分满足。
我们知道,这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战:
会抑制带宽,导致超低吞吐, 反而增加了大流的传输时延;
低时延
意味着降低交换机队列排队, 导致低吞吐;
意味需要保持链路高利用率, 会导致交换机的拥塞排队,导 致小流的“高时延”;
通用的无损网络的拥塞控制算法DCQCN,需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数达到组合达
到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,无法同时满足这三个核心指标。
设备内部流控,解决设备内部丢包、控制尾部时延
定时采集流量特征,基于定制的算法,找到合适该流量特征的ECN参数
拥塞标记后即刻产生CNP报文,通过报文原先入口发送给发送端,以第一时间降低流速,减轻缓存拥塞
面对动态流量和海量参数挑战,华为一方面投入研究团队分析各种应用,提炼出流量模型特征;另一方面通过在交换机集成AI芯 片,实时采集流量特征和网络状态,基于AI算法,本地实时决策并动态调整网络参数配置,使得交换机缓存被合理高效利用,实现整
网0丢包。同时,全局部署的智能分析平台FabricInsight,基于全局采集到的流量特征和网络状态数据,结合AI算法,对未来的流量 模型进行预测,从全局的视角,实时修正网卡和网络的参数配置,以匹配应用的需求。
据权威第三方测试EANTC测试结论,AI
Fabric可以在HPC场景下最高降低44.3%的计算
时延,在分布式存储场景下提升25%的IOPS能力,所有场景保证网络0丢包。
从商业价值角度看,AI Fabric给存储带来25%的IOPS性能提升,相当于同性能下存储投 资减少25%。以512个节点组成的分布式存储系统为例,采用AI Fabric意味着384个存储节点 即可获得采用传统网络512个存储节点的IOPS性能。综合测算,存储CAPEX降低的收益与AI Fabric的投资相比,至少可带来45倍的ROI收益率。
综上所述,数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储
投资的大幅降低;根据AI Fabric可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的(ROI)能力。
数据中心内部有三类典型的业务:高性能计算业务 (HPC),存储业务和一般业务;每类业务对于网络有不同
的诉求,比如HPC业务的多节点进程间通信,对于时延要求 非常高;而存储业务对可靠性诉求非常高,要求网络绝对 的0丢包;一般的业务规模巨大,扩展性强,要求网络低成 本易扩展。当前的数据中心内部有三张不同的网络: Infiniband网络提供低时延的网络IPC通信, FC网络提供高 可靠0丢包的存储网络,而传统的以太网承载一般的业务。 这样当前数据中心网络整体成本很高。
网络成本高:FC专网和IB专网价格昂贵,价格是以太网的几倍。
运维代价高:基于FC的存储网络和基于IB的专用HPC网需要专人运维,不支持SDN且无法满足云网协同自动部署的诉求。
AI Fabric基于开放以太网,通过独特的AI芯片和算法,可以使得以太网络同时满足低成本,0丢包和低时延的诉求。AI Fabric同 时承载SAN和IPC流量和一般LAN流量,CAPEX大幅降低;传统以太网运维人员就可以管理,无需专人运维,支持SDN云网自动 化,OPEX降低至少60%以上。
AI Fabric成为AI时代的数据中心构建统一融合的网络架构的最佳选择。
AI Fabric采用首款内嵌AI芯片的新一代交换机CloudEngine 16800,基于CLOS组网模型构建Spine-Leaf两级智能架构:计算智能 和网络智能结合,全局智能和本地智能协同,共同打造业界唯一的AI-Ready的无损低时延Fabric网络。
核心交换机CloudEngine 16800内嵌AI芯片,提供8TFlops的计算能力,能够对全网流量进行实时的学习训练,根据不同业务
流量模型的特点动态生成最优的网络参数设置,实现全局最优的网络自优化能力。
TOR交换机CloudEngine
8861,CloudEngine 8850,CloudEngine
6865等边缘设备内嵌专用网络智能芯片,对网络状态实时检 测,网络参数优化,根据本地流量状态实现交换队列水线的智能调整,在最佳的时刻给予发送端最快的反馈,实现发送速率的调
整,实现网络的0丢包基础上的高吞吐。
华为AI Fabric正在支撑一些领先的数字化互联网和金融企业应对AI时代的到来,加速数 据存储和处理过程,帮助企业提升决策的及时性和精准性。
某互联网巨头布局无人驾驶,无人驾驶技能的训练涉及到大量的AI计算:1天采集的数据,需要几百的GPU服务器7天才能训练
完,严重影响无人驾驶的上市时间。通过华为AI Fabric提供0丢包,低时延,高吞吐的极速无损以太网络,最终使得整体训练的时
长缩短40%,加速无人驾驶的商用进程。
招商银行分行云是招行云战略的一个创新试点,为了能够给用户提供像访问本地盘一样的使用体验,采用RDMA技术提升网络吞 吐并降低CPU的消耗。AI Fabric智能拥塞调度实现了网络的“零丢包、低时延、高吞吐”,加速RDMA通信,经实测最终存储 集群IOPS性能提升了20%,单卷性能达到35万。
作为领先的ICT解决方案供应商,华为一直在思考和探索如何使能行业数字化,AI Fabric可以提升AI运行的效率和存储的性能, 缩短训练和存储访问的时间,助力企业数字化尽快完成转型与智能升级。