日前,Intel公司正式推出了Gaudi 3 AI加速器,专为大算力需求的AI工作负载设计。英特尔在AI市场发力较晚,目前市场占有率不加。虽然这款新处理器在性能上逊于Nvidia的H100和H200 GPU,但Intel希望其较低的价格和总体拥有成本(TCO)能成为其竞争优势,能在AI市场扭转颓势,缩小与Nvidia的差距。
Gaudi 3 AI加速器的主要特点:
- 包含两个芯片,每个芯片有64个张量处理器核心(TPCs,256×256 MAC结构,带FP32累加器)。
- 八个矩阵乘法引擎(MMEs,256位宽向量处理器)。
- 96MB片上SRAM缓存,带宽为19.2 TB/s。
- 集成了24个200 GbE网络接口和14个媒体引擎,后者能够处理H.265、H.264、JPEG和VP9,以支持视觉处理。
- 配备128GB的HBM2E内存,分布在八个内存堆栈中,提供3.67 TB/s的带宽。
与Gaudi 2的比较:
- Gaudi 3在性能上显著提升,Gaudi 2拥有24个TPCs、两个MMEs和96GB的HBM2E内存。
- Gaudi 3简化了TPCs和MMEs,只支持FP8矩阵操作以及BFloat16矩阵和向量操作。
性能方面:
- Gaudi 3可提供高达1856 BF16/FP8矩阵TFLOPS和高达28.7 BF16向量TFLOPS的性能,功耗约为600W TDP。
- 与Nvidia的H100相比,Gaudi 3在BF16矩阵性能上略低(1856 vs 1979 TFLOPS),FP8矩阵性能是H100的一半(1856 vs 3958 TFLOPS),BF16向量性能则显著低于H100(28.7 vs 1979 TFLOPS)。
价格和可用性:
- Intel表示,基于八个Gaudi 3处理器的加速器套件价格为125,000美元,即每个处理器约15,625美元。
- 相比之下,Nvidia H100卡目前的价格为30,678美元,这意味着Intel在价格上确实有优势。
- 此外,Gaudi 3 AI加速器将通过IBM Cloud和Intel Tiber Developer Cloud提供。
- 基于Intel Xeon 6和Gaudi 3的系统将由Dell、HPE和Supermicro在第四季度广泛上市,Dell和Supermicro的系统将在10月发货,Supermicro的机器将在12月发货。
Intel公司副总裁兼数据中心和人工智能集团总经理Justin Hotard表示:“AI的需求正在引领数据中心的巨大变革,行业需要在硬件、软件和开发者工具上有更多的选择。随着我们推出带有P-cores的Xeon 6和Gaudi 3 AI加速器,Intel正在实现一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施他们的所有工作负载。”