阿里通义于 9 月 12 日发布下一代基础模型架构 Qwen3-Next。该架构针对大模型未来扩展趋势设计,采用全新高稀疏 MoE 架构,重构 Transformer 核心组件,实现训练和推理双重性价比突破。基于新架构,「打样」Qwen3-Next-80B-A3B 系列模型,性能媲美千问 3 旗舰版 235B 模型,计算效率大增,训练成本降超 90%。
每经记者|叶晓丹 每经编辑|张益铭
每经杭州 9 月 12 日电 (记者叶晓丹)9 月 12 日,阿里通义发布下一代基础模型架构 Qwen3-Next。Qwen3-Next 针对大模型在上下文长度和总参数两方面不断扩展 (Scaling) 的未来趋势而设计,采用全新的高稀疏 MoE 架构,并对经典 Transformer 核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。
基于这一新架构,阿里通义 「打样」 了 Qwen3-Next-80B-A3B 系列模型,开源指令 (Instruct) 和推理 (Thinking) 两大模型版本。新模型总参数 80B 仅激活 3B,性能可媲美千问 3 旗舰版 235B 模型,模型计算效率大幅提升。Qwen3-Next 训练成本较密集模型 Qwen3-32B 大降超 90%,长文本推理吞吐量提升 10 倍以上,并可支持百万 Tokens(文本处理的最小单位) 超长上下文。
封面图片来源:图片来源:视觉中国-VCG211478193393
文章转载自 每经网