【文章来源:金十数据】
只要英伟达 (NVDA.O) 主导人工智能芯片市场,客户就一直明确表示希望看到更多竞争。而最近的事实证明,其中一个最强有力的替代方案可能一直就在眼前。
谷歌十年前推出了其张量处理单元 (TPU),旨在加速公司的网页搜索引擎并提升效率。后来,这些芯片被改造用于谷歌 AI 应用中的机器学习任务。
如今,谷歌正通过 TPU 获得重要订单,这表明它们可能成为英伟达 AI 加速器 (用于训练和运行当今复杂大型语言模型的图形处理单元 GPU) 的可信替代方案。
本文将详解关于 TPU 的更多信息,包括其工作原理、潜力及局限性。
GPU 和 TPU 有什么区别?
两种芯片都能处理训练 AI 模型所需的大量计算,但方式不同。
英伟达 GPU 最初是为逼真渲染视频游戏画面而开发,通过数千个计算 「核心」 并行处理多项任务。这种架构也使它们能够以竞争技术无法匹敌的速度执行 AI 任务。
TPU 则专为一种 AI 相关工作,也就是矩阵乘法而设计,这是训练神经网络的主要操作,神经网络生成 AI 聊天机器人 (如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude) 对提示的响应时使用大量顺序执行的重复计算。
TPU 的设计使这类任务高效完成。它们比英伟达 GPU 更专业化、适应性较低,但在运行这些操作时耗能更低。英伟达 GPU 灵活、可编程性强,但这种灵活性也意味着运行成本更高。
TPU 如何成为 AI 场内的竞争者?
谷歌于 2013 年开始研发首款 TPU,并于两年后发布。最初,它用于加速公司搜索引擎并提升效率。2018 年,谷歌首次将 TPU 部署在云平台上,让客户能够使用同样技术的计算服务。
这些芯片也被改造用于支持谷歌内部 AI 开发。当公司及其 DeepMind 部门开发出如 Gemini 这样的前沿 AI 模型时,AI 团队的经验被反馈给 TPU 设计师,从而定制芯片以更好地服务内部 AI 团队。
谷歌最新一代 TPU 名为 Ironwood,于 4 月发布。它采用液冷设计,专用于运行 AI 推理工作负载 (即使用 AI 模型而非训练模型),提供两种配置:一个包含 256 颗芯片的 Pod,或一个更大的包含 9,216 颗芯片的 Pod。
Seaport 分析师 Jay Goldberg 表示,对于某些 AI 任务,TPU 的表现可能优于 GPU,因为谷歌可以 「剔除芯片中很多非 AI 部分」。目前 TPU 已发展到第七代,谷歌提升了芯片性能、增强了算力,同时降低了能耗,使其运行成本更低。
谁在使用 TPU?
当前 TPU 客户包括 Safe Superintelligence,一家由 OpenAI 联合创始人 Ilya Sutskever 去年创办的初创公司,以及 Salesforce、Midjourney 和 Anthropic 等目前已经广为人知的企业。
根据 10 月披露的一项协议,Anthropic 将通过多达 100 万颗 TPU 获得超过 1 吉瓦的谷歌计算能力。次月,《The Information》 报道称 Meta Platforms 正在洽谈在 2027 年将谷歌 TPU 应用于其数据中心。
这些进展凸显了主要 AI 企业在追求增加算力以应对快速增长的需求时,正在积极采用 TPU。
TPU 销售前景如何?
最大的 AI 开发商在昂贵的英伟达芯片上花费数百亿美元,他们希望降低依赖并缓解供应短缺影响,这为 TPU 指向了巨大的潜在市场。
目前,想使用谷歌 TPU 的企业必须在谷歌云平台租用算力。这可能很快会改变。分析师表示,Anthropic 的协议使 TPU 扩展到其他云平台更有可能。
目前,包括谷歌在内,没有企业打算完全取代英伟达 GPU;AI 发展的速度意味着这在短期内不可能。
Gartner 分析师 Gaurav Gupta 表示,谷歌尽管拥有自己的芯片,仍是英伟达的重要客户,因为它需要保持对客户的灵活性。如果客户的算法或模型发生变化,GPU 更适合处理更广泛的工作负载。
英伟达发言人表示:「英伟达领先整个行业一代。我们对谷歌取得的成功感到高兴。他们在 AI 领域取得了巨大进步,我们仍在为谷歌供货。」
即便是签约使用 TPU 的科技公司,仍在大量采用英伟达芯片。例如,Anthropic 在与谷歌 TPU 合作几周后,就与英伟达签署了一笔大额交易。
也就是说,谷歌 TPU 的最佳前景可能是成为推动 AI 增长所需产品组合中的一部分,而非将 GPU 取而代之。