据消息人士称,谷歌正在推进一项新计划,使其人工智能(AI) 芯片在运行 PyTorch(全球使用最广泛的 AI 软件框架) 方面表现更佳,此举旨在挑战英伟达长期以来在 AI 芯片领域的主导地位。
谷歌目标是让——其自研芯片张量处理单元 (TPU)——成为英伟达 GPU 的可运行替代方案,但仅有硬件并不足以推动广泛采用。
知情人士称,该计划在谷歌公司内部被称为 「TorchTPU」,旨在消除阻碍 TPU 芯片普及的一项关键障碍,即让已经基于 PyTorch 软件构建技术基础设施的客户,能够在 TPU 上获得完全兼容、对开发者友好的体验。
据悉,谷歌正在考虑将部分软件开源,以加快客户采用速度,该公司为 TorchTPU 项目投入了更多组织资源、战略重视度。
如果谷歌的 TorchTPU 项目取得成功,将有望显著降低企业从英伟达 GPU 转向其他方案的切换成本。
TPU 普及面临障碍
尽管越来越多的企业开始尝试采用谷歌的 TPU,但却在软件层面遇到障碍。
PyTorch 是一个由 Meta 大力支持的开源项目,是 AI 模型开发者最常用的工具之一。在硅谷,很少有开发者会亲自编写英伟达、AMD 或谷歌芯片实际执行的每一行代码。
相反,开发者依赖 PyTorch 等工具——这些工具由预先编写好的代码库和框架组成,能够自动化 AI 软件开发中的许多常见任务。
PyTorch 最初发布于 2016 年,其发展历程与英伟达的 CUDA 紧密相连。一些华尔街分析师认为,CUDA 是英伟达抵御竞争对手的最强护城河。

多年来,英伟达工程师一直致力于确保基于 PyTorch 开发的软件在其芯片上运行得尽可能快且高效。
相比之下,谷歌内部开发者团队长期采用另一套名为 Jax 的代码框架,其 TPU 芯片则通过名为 XLA 的工具来高效执行这些代码。谷歌自身的 AI 软件栈和性能优化大多围绕 Jax 构建,这使得谷歌芯片的使用方式与客户需求之间存在显著差。
知情人士称,企业客户一直向谷歌反映,TPU 在 AI 工作负载上的采用难度较高,因为过去它们往往要求开发者从大多数人已在使用的 PyTorch,转而切换到谷歌内部更偏好的机器学习框架 Jax。
与 Meta 合作
知情人士还表示,为加快开发进度,谷歌正在与 PyTorch 的创建者和主要维护方 Meta 紧密合作。两家科技巨头还在讨论相关交易,让 Meta 获得更多 TPU 资源。
早期面向 Meta 的服务采用谷歌托管模式,即 Meta 等客户安装谷歌设计的芯片来运行谷歌软件和模型,由谷歌提供运维支持。
相关人士称,Meta 在战略上有动力参与让 TPU 更易运行的软件开发,以降低推理成本,并让自身 AI 基础设施逐步摆脱对英伟达 GPU 的依赖,从而增强谈判筹码。
(财联社)
文章转载自 东方财富
