北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型 Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。
据 「通义千问 Qwen」 官方微信号介绍,这款模型的主要特点如下:
全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。
自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。
卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。
模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。
在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别 (Common Voice)、翻译 (CoVoST2)、音频理解 (MMAU)、图像推理 (MMMU、MMStar)、视频理解 (MVBench) 以及语音生成 (Seed-tts-eval 和主观自然听感)。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源开放。
(财联社)
文章转载自 东方财富