来源:
科创板日报
在很长一段时间内,市场始终将 GPU 和 AI 算力划上等号,然而随着 AI 行业步入由智能体驱动的强化学习时代,CPU 正逐渐演变为算力 「木桶效应」 下的新短板。
最新研究显示,在完整的 Agent 执行链路中,工具处理相关环节在 CPU 上消耗的时间占端到端延迟的比例最高可达 90.6%。在高并发场景下,CPU 端到端延迟从 2.9 秒跃升至 6.3 秒以上。其结果揭示了在大量 Agentic 场景中,系统吞吐受限的并非 GPU 计算能力,而是 CPU 的核心数并发调度问题。
就在日前,GPU 的超级玩家英伟达主动掏出 20 亿美元追加认购 CoreWeave 股票,并声称后者将在其平台上部署 Vera CPU——一款专为 「代理式推理 (Agentic Reasoning)」 设计,且在大规模 AI 工厂最具能效优势的 CPU。据悉,因 ARM CPU 瓶颈,英伟达已计划在下一代 Rubin 架构中大幅提升 CPU 核心数,并开放 NVL72 机柜对 x86CPU 的支持。
东吴证券指出,英伟达主动提升 CPU 权重,等同于在系统层面确认:在长上下文与高并发 Agent 场景中,大内存 CPU 是承载海量 KV Cache(键值缓存) 的最优容器。
与此同时,由于超大规模云服务商 「扫货」,英特尔与 AMD 在 2026 全年的服务器 CPU 产能已基本售罄。为了应对供需极端失衡并确保后续供应稳定,两家公司均计划将服务器 CPU 价格上调 10-15%。其中,英特尔甚至紧急将产能转向服务器端,一度导致消费电子端交付受阻。
在英特尔 2025 年第四季度财报电话会上,CEO 陈立武表示,尽管 AI 时代带来了前所未有的半导体需求,但短期内,「我对未能完全满足市场需求感到遗憾」。

▌对话靠 GPU,执行靠 CPU
是什么让 CPU 从 AI 算力界的 「冷板凳」 上站起,成为需要被单独规划的核心资源池?国金证券等多个机构总结道,Agent 对 CPU 需求提升主要来自三方面,即应用调度压力、高并发工具调用成为瓶颈,以及沙箱隔离抬升刚性开销。
应用调度压力较好理解,当 AI 智能体层出不穷,服务器端整体调用频次与覆盖面显著升高,便会带来更多系统请求、数据搬运与控制流开销。
至于为何 CPU 负载高于 GPU,在东吴证券看来,Agent 时代 AI 由 「纯对话」 转向了 「执行任务」,因此产生大量 if/else 判断,这种 「分支类任务」 倘若由 GPU 执行,会因控制流发散导致算力利用率急剧下降。与之相比,CPU 的微架构却能够适应此类任务。
另据广发证券,Agent 时代下,大语言模型叠加了决策编排器与多类外部工具,整体计算流程演化为 「感知-规划-工具调用-再推理」 的闭环结构。由于工具调用、任务调度、信息检索等关键环节均依赖 CPU 完成,随着 Agent 渗透率与工具调用密度提升,CPU 作为中间调度枢纽的占用线性放大。
此外,在 Agent 场景下,长上下文推理会快速耗尽 GPU HBM 容量。为解决这一问题,业界采用 KV CacheOffload 技术将数据迁移至 CPU 内存。如此一来,CPU 搭配大容量 DDR5/LPDDR5 承载 KV Cache 与部分参数,便成为了兼顾吞吐、扩展性与成本效率的主流架构选择。
从投资层面来看,招商证券表示,海外 CPU 巨头在国内的合作商将从这一轮 CPU 涨价行情中直接受益。此外,国内 AI 全产业链自主可控仍在不断推进,硬件端与软件端的生态适配正同步跟进,生态架构的升级将会对其中的各个环节提供性能上和产量上的双重要求,并带来明显的边际变化。
国海证券指出,超大规模数据中心已进入 「升级周期」,CPU 架构有较大替换需求,预计 2026 年服务器 CPU 出货量有望增长 25%。服务器 CPU 是 AI 算力与数据中心升级的核心受益环节,正进入存量升级+国产替代+模型迭代三重共振周期,或将迎来价值重估机会。
(科创板日报)
文章转载自东方财富


