来源:
上海证券报
11 月 21 日下午,华为在上海举办 「2025 AI 容器应用落地与发展论坛」,会上正式发布并开源了创新 AI 容器技术 Flex:ai。
目前,行业内算力资源的平均利用率仅为 30% 至 40%,据华为介绍,Flex:ai 通过算力切分技术,将单张 GPU(图形处理器)/NPU(神经网络处理器) 算力卡切分为多份虚拟算力单元,切分粒度精准至 10%。此技术实现了单卡同时承载多个 AI 工作负载,在无法充分利用整卡算力的 AI 工作负载场景下,算力资源平均利用率可提升 30%。
与英伟达旗下 Run:ai 只能绑定英伟达算力卡不同,华为 AI 容器技术 Flex:ai 通过软件创新,可实现对英伟达、昇腾及其他第三方算力资源的统一管理和高效利用,有效屏蔽不同算力硬件之间的差异,为 AI 训练推理提供更高效的资源支持。
大幅提升算力资源利用率
据介绍,华为 Flex:ai 是基于 Kubernetes 容器编排平台构建的 XPU 池化与调度软件,通过对 GPU、NPU 等智能算力资源的精细化管理与智能调度,实现 AI 工作负载与算力资源的 「精准匹配」,大幅提升算力资源利用率。
据了解,容器技术作为一种轻量级虚拟化技术,可以将模型代码、运行环境等打包成一个独立的、轻量级的镜像,实现跨平台无缝迁移,解决模型部署 「环境配置不一致」 的痛点。容器还可以按需挂载 GPU、NPU 算力资源,按需分配和回收 「资源」,提升集群整体资源利用率。
AI 时代需要 AI 容器
根据 Gartner 的报告,目前 AI 负载大多都已容器化部署和运行,据预测,到 2027 年,75% 以上的 AI 工作负载将采用容器技术进行部署和运行。
谈及为什么推出 Flex:ai AI 容器技术,华为公司副总裁、数据存储产品线总裁周跃峰表示,传统容器技术已无法完全满足 AI 工作负载需求,AI 时代需要 AI 容器。
具体而言,周跃峰表示,首先,大型语言模型 (LLM) 的容器镜像轻松突破 10GB,多模态模型镜像甚至可达 TB 级别,传统容器无法支持超大镜像的快速拉起,环境构建时间往往长达数小时。
其次,传统容器主要针对 CPU(中央处理器)、内存等通用计算资源进行管理与调度,而 AI 大模型训练与推理还需大幅依赖 GPU、NPU 等智能算力资源,传统容器无法对异构智算资源做到算力细粒度切分与智能调度,导致即使很小的 AI 工作负载也独占整张算力卡,且无法进行远程调用。
最后,传统容器的资源调度以固定分配、通用调度为主,而 AI 工作负载的资源调度需要以保障任务完成效率为目标,对不同任务的特性进行感知,实现动态弹性的资源分配。
据介绍,与英伟达今年年初收购的 Run:ai 公司的核心产品相比,华为 Flex:ai 在虚拟化、智能调度等方面具备独特优势。
具体来看,在本地虚拟化技术中,Flex:ai 支持把单个物理 GPU/NPU 算力卡切割为数个虚拟算力单元,并通过弹性灵活的资源隔离技术,可实现算力单元的按需切分。
同时,Flex:ai 独有的 「拉远虚拟化」 技术,可以在不做复杂的分布式任务设置情况下,将集群内各节点的空闲 XPU 算力聚合形成 「共享算力池」,此时不具备智能计算能力的通用服务器通过高速网络,可将 AI 工作负载转发到远端 「资源池」 中的 GPU/NPU 算力卡中执行,实现通用算力与智能算力资源融合。
在智能调度方面,Flex:ai 的智能资源和任务调度技术,可自动感知集群负载与资源状态,结合 AI 工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化 GPU、NPU 资源进行全局最优调度,满足不同 AI 工作负载对资源的需求。
加速 AI 行业化落地
周跃峰表示,Flex:ai 将在发布后同步开源在魔擎社区中。Flex:ai 将与华为此前开源的 Nexent 智能体框架、AppEngine 应用编排、DataMate 数据工程、UCM 推理记忆数据管理器等 AI 工具共同组成完整的 ModelEngine 开源生态,加速赋能 AI 行业化落地。
周跃峰表示,不同行业、不同场景的 AI 工作负载差异较大,通过开源,Flex:ai 可提供提升算力资源利用率的基础能力和部分优秀实践,与业界一道结合行业场景完成落地探索。
此外,华为还希望通过开源推动形成以 AI 容器技术为载体的资源高效利用新范式。周跃峰说,开源的 Flex:ai 可以在产学研各界开发者的参与下,共同推动异构算力虚拟化与 AI 应用平台对接的标准构建,形成算力高效利用的标准化解决方案。

东财图解·加点干货

(上海证券报)
文章转载自东方财富

