对了,华为前段时间推出的CloudMatrix 384超节点,由384颗昇腾910C芯片构建,系统性能比英伟达的GB200 NVL72更强 。这就像是“群殴”模式,虽然单芯片的性能比不过人家,但通过系统层面的创新,组成更大规模的集群,也能在一定程度上弥补差距,满足算力需求。
在连接方面,华为自研的HCCS高速互连接口也很厉害。昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,可以灵活高效地实现横向扩展和纵向扩展 。HCCS对标的是英伟达的NVLINK,能够给内核、设备、集群提供系统内存的一致访问 。在单一链路的单向/双向互联带宽上,HCCS有显着优势,可以有效提升多个Al芯片协同训练的能力。
据说910C之后,还有910D ,采用5nm制程,4Die封装,支持FP8 。今年5 - 6月份回片,预期2026Q2 - Q3大规模量产。不过这个消息来源不太可靠,只能仅供参考。再往后,华为可能就会推出昇腾920系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。
除了昇腾310和910之外,华为其实还有昇腾610 。昇腾610也称为MDC610,是智能驾驶芯片,用于华为自己的智能驾驶平台(MDC) 。根据资料显示,昇腾610采用了7nm制程,AI算力达到200TOPS@INT8或100TFLOPS@FP16 ,目前已经实现量产。
三、昇腾芯片的架构奥秘
华为昇腾芯片采用了自家独特的达芬奇架构,这可是昇腾芯片的核心技术之一,就像是给芯片赋予了一颗超级“智慧大脑” 。
这个架构专为人工智能计算设计,具有超高的计算能效比。咱们以昇腾910为例,它强大的算力能够满足大规模深度学习计算的需求 。在处理矩阵运算等人工智能常见计算任务时,达芬奇架构就展现出了极高的效率。比如说,在训练一个超大规模的图像识别模型时,需要处理海量的图像数据和复杂的计算,昇腾910凭借着达芬奇架构,能够快速地完成这些矩阵运算,大大缩短了模型训练的时间。
昇腾芯片还具备先进的张量处理单元(TPU) ,这就像是一个专门为神经网络计算打造的“加速引擎” 。它能够加速神经网络中的张量计算,让模型训练和推理的速度大幅提升 。在图像识别任务中,昇腾芯片可以快速处理大量的图像数据,准确识别出目标物体,这主要就得益于其高效的架构设计和强大的计算核心,以及TPU的加速作用。
而且,昇腾芯片在内存子系统等方面也有创新。就拿昇腾950系列来说,它将内存访问颗粒度从512字节减少到128字节 ,实现更精细的内存访问控制,大幅提升了对离散、不连续内存访问场景的支持能力 。配合华为自研的两种HBM内存技术,形成了完整的场景化内存解决方案。
HiBL 1.0低成本HBM(昇腾950PR搭载) :在保证128GB容量和1.6TB/s带宽的基础上,通过材料与封装工艺创新,将推理Prefill阶段和推荐业务的硬件投资成本降低40%以上 ,解决了大规模部署的经济性瓶颈。这就好比以前买一台设备要花很多钱,现在通过技术创新,用更少的钱就能达到差不多的效果,让更多企业用得起。
HiZQ 2.0高性能HBM(昇腾950DT搭载) :实现144GB超大内存容量和4TB/s带宽,配合2TB/s的互联带宽,满足大模型训练和长文本推理对高访存带宽的严苛需求 ,为千亿参数模型训练提供了充足的内存支撑。比如在训练一个超大型的语言模型时,需要大量的内存来存储和处理数据,HiZQ 2.0高性能HBM就能很好地满足这种需求,保证模型训练的顺利进行。
在精度支持方面,昇腾950系列全面覆盖FP8/MXFP8/MXFP4等业界标准低数值精度格式 ,同时引入华为自研的HiF8精度模式 。在保持FP8计算效率的同时,精度接近FP16 ,有效解决了低精度计算中的精度损失问题 ,使推理结果准确性提升15% - 20% 。这种多精度支持能力使其能灵活适配从图像识别到自动驾驶等不同精度需求的AI场景。比如在自动驾驶场景中,对精度要求就非常高,HiF8精度模式就能在保证计算效率的同时,提高识别的准确性,保障行车安全。
四、基于昇腾芯片的硬件体系
基于昇腾芯片,华为开发了一系列丰富的硬件产品,就像是搭建了一个完整的AI算力“王国”,这些硬件覆盖了边缘推理、云端推理、云端训练三大场景 ,可以满足不同行业用户各种各样的AI计算需求。
这章没有结束,请点击下一页继续阅读!
喜欢大白话聊透人工智能请大家收藏:(m.zuiaixs.net)大白话聊透人工智能醉爱小说网更新速度全网最快。