思元290采用MLUv02扩展架构
MLUv02架构为寒武纪MLU200全产品线共享,满足云、边、端三个场景的算力需求。云端训练对AI算力的要求更为苛刻,因此寒武纪对思元290的MLUv02架构进行了多项扩展,包括业内领先的MLU-Link™多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。相比寒武纪思元270芯片,思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程,思元290可提供更优性能功耗比,以及多MLU系统的扩展能力。
寒武纪MLU-Link™ 多芯互联技术
近年来,AI算法模型的复杂程度高速增长,对算力和训练速度提出了更高的要求。为了构建更强大的计算平台,多芯片间的互联技术已成为市场刚需。寒武纪推出MLU-Link™多芯互联技术,并首次搭载于寒武纪思元290芯片,每颗思元290的多芯互联总带宽高达600GB/s。MLU-Link™具备丰富的互联特性,突破PCIe带宽和互联的瓶颈,相比思元270芯片通过PCIe并行的通讯方式,带宽提高19倍。MLU-Link™多芯互联技术支持多颗思元芯片无缝互联,支持跨系统互联,将纵向扩展能力整合到整个人工智能计算中心(AIDC),可以端到端加速大型AI模型训练。
寒武纪vMLU解决方案
不同场景下的AI训练对计算和存储的要求千差万别,如何提供更灵活也更稳定的服务,但同时让算力得到充分地利用,是AIDC面临的持续挑战。寒武纪虚拟化技术vMLU,支持在思元290上实现4个相互隔离的AI计算实例,每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰,即使在虚拟化环境下仍可保持90%以上的极高效率,帮助客户充分利用硬件资源。
寒武纪AI加速卡MLU290-M5产品规格
思元290-M5 产品规格 | |
---|---|
产品名称 | MLU290-M5 |
核心架构 | Cambricon MLUv02 Extended |
制程工艺 | 7nm |
最大AI算力 | 1024 TOPS (INT4) |
自适应精度训练算力 | 512 TOPS (INT8) 256 TOPS (INT16) 64 TOPS (CINT32) |
计算精度支持 | CINT32, INT16, INT8, INT4, FP32, FP16 |
DirectCV™视频解码 | 128 Streams 全高清视频 |
DirectCV™图片解码 | 3200 Frames/s 全高清图片 |
内存类型 | HBM2高带宽内存 |
内存容量 | 32GB |
内存位宽 | 4096 bit |
内存带宽 | 1228 GB/s |
系统接口 | ×16 PCIe 4.0 |
MLU-Link™接口 | 6 Ports, 48 Lanes, 50 Gbps |
MLU-Link™带宽 | 聚合带宽600GB/s Bi-direction |
vMLU实例 | 4个 |
最大热功耗 | 350W |
形态 | OAM (54V) |
尺寸 | 102mm × 165mm |
含散热器重量 | 1470g |
寒武纪Neuware™训练软件栈
寒武纪Neuware™软件栈为思元290芯片提供完善的软件及应用生态,支持业界主流的TensorFlow和PyTorch等深度学习框架,用户不需要改变使用习惯,即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。其中,基于Horovod分布式训练框架与MLU-Link™多芯互联技术相互配合,让思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比。寒武纪Neuware™提供完善的开发工具包和社区支持,帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作。配合强大的BANG智能编程语言及配套调试工具,用户可以为自定义的算法提供最佳性能调优。
寒武纪思元290芯片及加速卡已与部分硬件合作伙伴完成适配,并已实现规模化出货,寒武纪已建立“云边端一体、软硬件协同、训练推理融合”的新生态。可满足市场多样化的人工智能应用场景与需求,为人工智能技术在各行业的广泛应用提供底层算力支撑。
近年来国内厂商对人工智能芯片热情高涨,在这个赛道上有着诸多优秀的产品。国内的人工智能芯片设计厂商起步并不算晚,甚至还有一定的先发优势,再结合国内的数据优势,国内的相信人工智能产业会迎来更好的发展。