赛灵思日前发布了Versal 系列边缘AI专用处理器,应用部分采用ARM Cortex-A72和Cortex-R5F打造,集成AI专用引擎和DSP引擎,并且采用了赛灵思自有的超大自适应计算加速平台(Adaptive Compute Acceleration Platform)。可提供完整的应用和计算需求。可应用于自动驾驶、工业检测、智能制造和医疗保健系统的实时系统。
Versal AI Edge 系列不仅实现了 AI,还将整个应用从传感器加速到 AI,实现实时控制,所有应用的安全性能都达到 ISO 26262 和 IEC 61508 等关键标准。作为自适应计算加速平台 (ACAP),Versal AI Edge 系列允许开发人员快速发展传感器融合和 AI 算法,实现从边缘到终端的各种性能和功率配置文件。
Versal 系列边缘AI处理器由 VE2002 到 VE2802 等七种型号组成,可满足不同场景的性能需求,处理器采用7nm制程工艺。Versal AI Edge 系列具有不同类型的引擎模块,七种处理器型号因发动机和平台规格而异。但是,对于边缘 AI 系列的所有型号,系统部分的SoC是相同的。以下是SoC的共同规格:
Versal AI Edge Series
Application Processing Unit | Dual-core Arm® Cortex®-A72, 48KB/32KB L1 Cache w/ parity & ECC; 1 L2 Cache w/ ECC | ||||||
---|---|---|---|---|---|---|---|
Real-Time Processing Unit | Dual-core Arm Cortex-R5F, 32KB/32KB L1 Cache, and 256KB TCM w/ECC | ||||||
Memory | 256KB On-Chip Memory w/ECC | ||||||
Connectivity | Ethernet (x2); UART (x2); CAN-FD (x2); USB 2.0 (x1); SPI (x2); I2C (x2) |
ACAP是一个平台,提供处理器和 FPGA 。该处理具有高效的内存和 I/Os,而可编程阵列允许对硬件进行逻辑控制。此外,由于赛灵思专注于 FPGA 产品,计算功能的额外支持使 ACAP 硬件更加灵活和动态。
赛灵思 Versal 系列配备了 AI 处理器,与过去 AI 处理器的架构相比,新的 AI 处理器计算速度快四倍。ACAP AI 处理器配备了新的RAM,可为动态 AI 算法提供高效的内存结构。新的AI处理器可每瓦提供高达4倍的 AI 性能、更低的延迟,以及更快的传输。
赛灵思Versal边缘AI系列处理器详细算力
VE2002 | VE2102 | VE2202 | VE2302 | VE2602 | VE1752 | VE2802 | |||
Intelligent Engines |
AI Engine Peak Perf – INT8x4 | TOPs | 11 | 16 | 32 | 45 | 202 | 101 | 405 |
AI Engine Peak Perf – INT8 | TOPs | 5 | 8 | 16 | 23 | 101 | 101 | 202 | |
AI Engine Peak Perf – INT8x16 | TOPs | 3 | 4 | 11 | 11 | 101 | 51 | 101 | |
AI Engine Peak Perf – INT16 | TOPs | 1 | 2 | 4 | 6 | 25 | 25 | 51 | |
AI Engine Peak Perf – CINT16 | Complex TOPs | 0.2 | 0.2 | 0.5 | 0.7 | 3.2 | 6.3 | 6.3 | |
AI Engine Peak Perf – FP32 | TFLOPs | 0.4 | 0.7 | 1.3 | 1.9 | 8.3 | 6.3 | 16.6 | |
AI Engine Peak SRAM Bandwidth | Tb/s | 11 | 16 | 32 | 45 | 202 | 405 | 405 | |
DSP Engine Peak Perf – INT8 | TOPs | 0.6 | 1.2 | 2.2 | 3.2 | 6.8 | 9.1 | 9.1 | |
DSP Engine Peak Perf – INT24 | TOPs | 0.2 | 0.4 | 0.7 | 1.1 | 2.3 | 3.0 | 3.0 | |
DSP Engine Peak Perf – CINT18 | Complex TOPs | 0.1 | 0.2 | 0.3 | 0.5 | 1.0 | 1.3 | 1.3 | |
DSP Engine Peak Perf – FP32 | TFLOPs | 0.1 | 0.3 | 0.5 | 0.7 | 1.6 | 2.1 | 2.1 | |
Adaptable Engines |
Adaptable Engine Peak Perf – INT1 | TOPs | 21 | 38 | 110 | 157 | 392 | 469 | 544 |
Adaptable Engine Peak Perf – INT2 | TOPs | 10 | 18 | 50 | 72 | 180 | 215 | 250 | |
Adaptable Engine Peak Perf – INT4 | TOPs | 2 | 5 | 13 | 19 | 47 | 56 | 65 | |
Adaptable Engine Peak Perf – INT8 | TOPs | 1 | 1 | 3 | 5 | 12 | 14 | 17 | |
NoC Cross-sectional Bandwidth | Tb/s | 0.6 | 0.6 | 0.6 | 0.6 | 1.7 | 1.7 | 1.7 | |
Scalar Engines | Arm® Cortex-A72 Performance | DMIPs | 15980 | 15980 | 15980 | 15980 | 15980 | 15980 | 15980 |
Arm Cortex-R5 Performance | DMIPs | 2505 | 2505 | 2505 | 2505 | 2505 | 2505 | 2505 | |
Memory |
Total Bandwidth – Block RAM | Tb/s | 3 | 7 | 16 | 22 | 69 | 137 | 86 |
Total Bandwidth – Ultra RAM | Tb/s | 3 | 5 | 11 | 16 | 24 | 49 | 28 | |
Total Bandwidth – Accelerator RAM | Tb/s | 0.4 | 0.4 | 0.4 | 0.4 | 0 | 0 | 0 | |
Total SRAM Bandwidth | Tb/s | 6 | 12 | 27 | 39 | 92 | 186 | 114 | |
DDR4 Memory Bandwidth | Gb/s | 25.6 | 25.6 | 25.6 | 25.6 | 76.8 | 76.8 | 76.8 | |
LPDDR4 Memory Bandwidth | Gb/s | 34.1 | 34.1 | 34.1 | 34.1 | 102.4 | 102.4 | 102.4 | |
I/O | Transceiver Bandwidth | Tb/s | 0 | 0 | 0.52 | 0.52 | 2.10 | 2.88 | 2.10 |
Sensor I/O Bandwidth | Gb/s | 0 | 269 | 0 | 269 | 0 | 0 | 0 |
赛灵思最早从事FPGA相关产品开发,在人工智能智能领域有一定的软件生态基础,借助现有的工具,开发者可以降低项目的落地成本。Versal边缘AI系列将应用处理器、AI处理器和FPGA融为一体,实现了全场景的覆盖。虽然A72架构处理器性能并不强,但是为行业应用提供系统环境还是足够的。集成系统的应用处理器也是各FPGA、AI处理器厂家的共识,毕竟大家都想把业务掌控在自己手里,不希望受限于第三方。