每经记者|王晶 每经编辑|金冥羽 魏文艺
「算力的基础是芯片,而昇腾芯片是华为整个 AI 战略的基础。」9 月 18 日,在 「华为全联接大会 2025」 上,华为副董事长、轮值董事长徐直军罕见地披露了关于昇腾芯片的演进和目标。
据徐直军介绍,昇腾芯片会持续演进。「未来三年,华为规划了三个系列的昇腾芯片,分别是 950 系列——包括 950PR(2026 年第一季度推出) 和 950DT(2026 年第四季度推出) 两颗芯片,960(2027 年第四季度推出) 系列,以及 970 系列 (2028 年第四季度推出)。」
从发布节奏来看,昇腾芯片将进入一个快速迭代和性能持续飙升的周期。不过,由于受限于先进制程的获取,华为单颗昇腾芯片的算力目前还难以直接与英伟达芯片竞争。为此,华为选择了一条不同的技术路径:通过 「超节点+集群」 的算力解决方案,将多颗芯片高效互联,以集成的方式满足持续增长的算力需求。
「由于美国制裁,我们不能产出最先进工艺制程的芯片,但我们基于过去三十多年构筑的联接技术能力,使得我们能够做到万卡级的超节点,经营万卡级的超节点,做到在世界上算力最强。」 徐直军说道。
徐直军 图片来源:每经记者 王晶 摄
一年一迭代! 华为披露昇腾芯片三年演进路线图
我们常听说华为的麒麟芯片主要用于手机 (CPU),而昇腾芯片则专注于数据中心、服务器、AI 训练平台等专业领域 (NPU),其主要职责是高效处理海量数据,并执行人工智能模型的 「训练」 和 「推理」 任务。
2018 年 10 月,华为正式发布首款采用华为自研达芬奇架构的 AI 芯片昇腾 910 与昇腾 310。其中,昇腾 310 是 SoC(系统级芯片) 小芯片,和手机芯片差不多,只有指甲盖大小;昇腾 910 是大芯片,和手掌心差不多大,主要面向云端高性能计算。2019 年昇腾芯片正式投入商用,华为还同步推出了昇腾 AI 计算架构,包括昇腾处理器、昇腾 AI 加速模块和昇腾 AI 开发环境,初步形成 AI 计算解决方案。
此后,由于众所周知的原因,华为昇腾鲜少披露昇腾芯片进度。如今,徐直军时隔六年再谈芯片进展。从规划上看,对于明年将落地的 950 系列,华为没有选择推出一颗 「全能」 芯片,而是计划推出两颗功能侧重点不同的芯片。
其中,昇腾 950PR 专攻 「Prefill」 性能 (AI 推理过程中的关键阶段),搭载自研 HBM——HiBL 1.0,这是华为自研的高带宽内存技术,可以理解为给芯片修了一条更宽、更快的 「数据高速公路」,处理 Prefill 这种需要吞吐大量数据的任务,高速内存至关重要。而 950DT 则注重提升推理 Decode(解码) 性能、训练性能,并提升内存容量和带宽。两颗芯片分工协作,效率更高。
徐直军称:「昇腾 960 在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比昇腾 950 翻倍,大幅度提升训练、推理等场景的性能,同时还支持华为自研的 HiF4 数据格式。这颗芯片将首先支持的产品形态是标卡和超节点服务器。昇腾 970 这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比昇腾 960,其互联带宽等要全面翻倍,内存访问带宽至少增加 1.5 倍。」
可以看出,昇腾芯片将以几乎一年一代、算力翻倍的速度持续推进。
超节点+集群:以架构创新突破算力瓶颈
如果说芯片迭代是基础,那么超节点就是华为在算力战场上 「以架构创新打破制程封锁」 的战略支点。它不再依赖于单芯片性能的极限突破,而是通过系统工程方法,将成千上万颗芯片高效互联,形成一个逻辑统一的超级计算机,从而实现整体算力的跨越式增长。
今年,华为发布了业界规模最大的超节点,即昇腾 384 超节点。华为将 384 颗昇腾 AI 芯片连接在一起组成集群,通过全对等高速互联架构,基于系统工程方法,对计算、内存、通信的极致优化调度,可提供高达 300PFLOPs 的密集 BF16 算力,该性能表现接近英伟达 GB200 NVL72 系统的两倍。
「超节点在逻辑上是以一台机器学习、思考、推理。」 徐直军说道。他还在大会上发布了更多的超节点和集成产品,比如 Atlas 950 SuperPoD(基于昇腾 950DT 来打造) 和 Atlas 960 SuperPoD 超节点,分别支持 8192 和 15488 张昇腾卡。
「Atlas950 超节点至少在未来两年都将是全球最强算力的超节点,也是全球最强算力的单体单元计算机。相比英伟达同样在明年下半年上市的 NVL144,Atlas950 超节点卡的规模是它的 56.8 倍,总算力是它的 6.7 倍,内存容量是它的 15 倍,达到了 1152TB。」 徐直军说道。
而基于超节点,华为还发布了超节点集群,分别是 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster,算力规模分别超过 50 万卡和达到百万卡。
不过,如何将数千甚至上万张芯片连接成一个高效的整体,是超节点技术面临的核心挑战,尤其是互联技术方面。
徐直军表示:「大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术都不能满足需求。另外,跨柜卡间互联带宽低,和超节点的需求差距达 5 倍。」
为此,华为通过系统性创新,在互联协议的物理层、数据链路层、网络层、传输层等都引入了高可靠机制,重新定义和设计了光器件、光模块和互联芯片,使光互联的可靠性提升百倍、且互联距离超过 200 米。同时,在大带宽与时延上,依靠多端口聚合与高密封装技术,以及平等架构和统一协议,实现了 TB 级的超大带宽,2.1 微秒的超低时延。华为还在大会上发布了面向超节点的互联协议 「灵衢」(UnifiedBus),可以把更多计算资源连接到一起。
这些技术上的突破令华为能够将万卡级芯片集成为一个整体,让超节点像 「一台计算机」 一样工作、学习、思考、推理。
「超节点已经重新定义了 AI 基础设施的范式。我们对于为人工智能的长期快速发展提供可持续且充裕的算力充满信心,也值得大家期待。」 徐直军表示。
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
记者|王晶
编辑|金冥羽 魏文艺 易启江
校对|陈柯名
封面图片来源:视觉中国
|每日经济新闻 nbdnews 原创文章|
未经许可禁止转载、摘编、复制及镜像等使用
文章转载自 每经网