寒武纪MLU290-M5超高算力AI加速模块简介

MLU290-M5智能加速卡是寒武纪推出的超高算力AI加速模块，搭载旗下首颗训练芯片思元290，采用台积电7nm先进制程工艺，采用MLUv02扩展架构，集成了高达460亿的晶体管，具备64个MLU Core，1.23TB/s内存带宽以及全新MLU-Link™芯片间互联技术，可提供高达1024TOPS的算力支持，全面支持AI训练、推理或混合型人工智能计算加速任务。

思元290采用MLUv02扩展架构

MLUv02架构为寒武纪MLU200全产品线共享，满足云、边、端三个场景的算力需求。云端训练对AI算力的要求更为苛刻，因此寒武纪对思元290的MLUv02架构进行了多项扩展，包括业内领先的MLU-Link™多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。相比寒武纪思元270芯片，思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程，思元290可提供更优性能功耗比，以及多MLU系统的扩展能力。

MLU290的MLUv02架构进行了多项扩展

寒武纪MLU-Link™ 多芯互联技术

近年来，AI算法模型的复杂程度高速增长，对算力和训练速度提出了更高的要求。为了构建更强大的计算平台，多芯片间的互联技术已成为市场刚需。寒武纪推出MLU-Link™多芯互联技术，并首次搭载于寒武纪思元290芯片，每颗思元290的多芯互联总带宽高达600GB/s。MLU-Link™具备丰富的互联特性，突破PCIe带宽和互联的瓶颈，相比思元270芯片通过PCIe并行的通讯方式，带宽提高19倍。MLU-Link™多芯互联技术支持多颗思元芯片无缝互联，支持跨系统互联，将纵向扩展能力整合到整个人工智能计算中心（AIDC），可以端到端加速大型AI模型训练。

思元290采用MLU-Link™多芯互联技术进行互联，带宽、灵活性全面优于PCIe 3.0

寒武纪vMLU解决方案

不同场景下的AI训练对计算和存储的要求千差万别，如何提供更灵活也更稳定的服务，但同时让算力得到充分地利用，是AIDC面临的持续挑战。寒武纪虚拟化技术vMLU，支持在思元290上实现4个相互隔离的AI计算实例，每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰，即使在虚拟化环境下仍可保持90%以上的极高效率，帮助客户充分利用硬件资源。

思元290上实现4个相互隔离的AI计算实例

寒武纪AI加速卡MLU290-M5产品规格

思元290-M5 产品规格
产品名称	MLU290-M5
核心架构	Cambricon MLUv02 Extended
制程工艺	7nm
最大AI算力	1024 TOPS (INT4)
自适应精度训练算力	512 TOPS (INT8) 256 TOPS (INT16) 64 TOPS (CINT32)
计算精度支持	CINT32, INT16, INT8, INT4, FP32, FP16
DirectCV™视频解码	128 Streams 全高清视频
DirectCV™图片解码	3200 Frames/s 全高清图片
内存类型	HBM2高带宽内存
内存容量	32GB
内存位宽	4096 bit
内存带宽	1228 GB/s
系统接口	×16 PCIe 4.0
MLU-Link™接口	6 Ports, 48 Lanes, 50 Gbps
MLU-Link™带宽	聚合带宽600GB/s Bi-direction
vMLU实例	4个
最大热功耗	350W
形态	OAM (54V)
尺寸	102mm × 165mm
含散热器重量	1470g

寒武纪Neuware™训练软件栈

寒武纪Neuware™软件栈为思元290芯片提供完善的软件及应用生态，支持业界主流的TensorFlow和PyTorch等深度学习框架，用户不需要改变使用习惯，即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。其中，基于Horovod分布式训练框架与MLU-Link™多芯互联技术相互配合，让思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比。寒武纪Neuware™提供完善的开发工具包和社区支持，帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作。配合强大的BANG智能编程语言及配套调试工具，用户可以为自定义的算法提供最佳性能调优。