2022年3月21日,寒武纪正式发布新的加速卡MLU370-X8。MLU370-X8配备双芯片四芯粒思元370,集寒武纪MLU-Link多芯互联技术于一体,主要面向培训任务。在YOLOV3.Transformer等行业应用广泛的培训任务中,8卡计算系统平均平行性能达到350WRTXGPU。
寒武纪训练加速卡MLU370-X8。
双芯思元370架构。
MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥人工智能训练加速中常见的FP32.FP16或BF16计算性能。寒武纪首次将MLU370-X8智能加速卡中的双芯片四芯粒思元370集成,提供了两倍于标准思元370加速卡的内存。编码资源,配备MLU-Link多芯互联技术。在YOLOV3.Transformer.BERT和Resnet101训练任务中,8卡平行平均性能达到350WRTXGPU的155%。
双芯片四芯粒思元370集成在MLU370-X8中。
MLU-Link多芯互联技术。
MLU370-X8智能加速卡支持MLU-Link多芯互联技术,提供卡内和卡间的互联功能。寒武纪专门为多卡系统设计了MLU-Link桥接卡,可实现8个思元370芯片的全互联。每张加速卡可获得200GB/s的通信吞吐性能,带宽为PCIe4.0的3.1倍。
MLU370-X8MLU-Link4卡桥接。
MLU370-X8MLU-Link4卡桥接拓扑。
CambriconnneuWare交付优异的训练性能。
Cambriconneuware支持FP32.FP16混合精度.BF16混合精度和自适应精度训练等多种训练方法,并提供灵活高效的训练工具。高性能算子库完全覆盖了视觉.语音.自然语言处理.搜索推荐和自动驾驶等典型的深度学习应用,可以满足用户对算子覆盖率和模型精度的需求。
Cambriconneuware为思元370系列芯片提供了训推一体化加速。
根据CambriconneuwareSDK的实际测量,MLU370-X8单卡在四种常见的深度学习网络模型中的性能相当于主流350WRTXGPU;在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和CambriconeuwareCNCL通信库的优化,在8卡环境下实现了更好的并行加速比。
MLU370-X8单机8卡部署配置。
比较单卡MLU370-X8的性能。
8卡MLU370-X8性能比较。
测试环境
250WMLU370-X8:NF5468m5/IntelXeongold5218CPU@2.30GHz/MLU370SDK1.2.0。
350WGPU:Supermicroas-4124GS-TNR/IntelXeongold6130CPU@2.10GHz/Cuda11.2。
MLU370-X8规格表。
MLU370-X8补充思元370系列产品线。
寒武纪长期坚持云边缘集成、训练与推广集成、软硬件协作的技术理念。MLU370-X8提供思元370内存带宽的两倍。结合MLUArch03架构和MLU-Link多芯互联技术,充分发挥思元370芯片在培训任务中的优势。MLU370-X8定位为中高端,与思元290高端培训产品相结合。玄思1000进一步丰富了寒武纪的培训算力交付方式;并与基于思元370芯粒(chiplet)技术的MLU370-X4.MLU370-S4智能加速卡合作,形成完整的云培训。
MLU370-X8加速卡与国内主流服务器合作伙伴的适应已经完成,客户已经实现了小规模出货。
浪潮信息人工智能和高性能产品线副总经理张强表示:目前,浪潮与寒武纪在思源370系列产品上顺利合作,并逐步在互联网、金融、制造等领域实施;MLU370-X8性能优异。我们期待双方继续加强合作,为更多行业和客户带来优秀的人工智能计算能力。
寒武纪用产品向客户证实了其初衷和决心:为人工智能技术的爆发提供优秀的人工智能芯片产品,使机器能够更好地理解和服务人类。
本文版权归原作者所有,同心智造网(www.cn-im.cn)转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。