作者:
刘晓洁
北京时间 10 月 16 日,就在 Sora 2 发布半个月后,谷歌火速推出了最新视频模型 Veo 3.1 和 Veo 3.1 Fast,正面迎战 OpenAI。

在官方推文中,谷歌称 「Veo 正在进行重大升级」,不过,从国内外各方实测来看,从 Veo 3 到 Veo 3.1,确实如名字一样,只是进行了一次小的迭代,在画质、物理上的提升并不算大,在 AI 音频、自动分镜等方面都不如 Sora 2,但 Veo 3.1 的光影效果更突出,生成速度更快。
视频生成赛道的竞争越发白热化。就在今年 5 月,谷歌才发布 Veo 3,一度刷屏并占据文生视频模型榜首。不过,本月初发布的 Sora 2 迅速抢走了风头。
距离上一代模型更新仅 5 个月后,谷歌拿出了 Veo 3.1。有趣的是,北京时间 10 月 16 日中午,OpenAI 也放出了 Sora 2 的更新,称普通用户可以生成 15 秒的视频,专业用户则可以生成长达 25 秒的视频。两大巨头的火药味颇浓。

就模型本身来看,谷歌这次 Veo 3.1 更新的核心亮点是更丰富的原生音频生成、更强的电影风格理解与叙事控制,以及更逼真的质感还原。
Veo 3.1 在多个功能中集成了音频,支持自然对话、音效和环境噪音,在视频画面生成的同时,模型会自动根据画面内容生成环境音、动作声及氛围配乐。此次迭代后,音频质量更逼真,尤其在对话上,过去生成一个科幻短片的音频可能听起来像机器人朗读,而现在,Veo 3.1 能模拟出紧张的背景配乐与人物语言。

Veo 3.1 生成的对话视频
今年 5 月,谷歌正式推出了 Flow,一款由 Veo 驱动的 AI 电影制作工具。谷歌称,截至目前用户已在 Flow 中生成了超过 2.75 亿个视频。而此次迭代也包括 Flow 里的多个核心功能升级。
业界讨论较多的是首尾帧 (Frames to Video) 功能,用户提供一段视频起始和结束的两张图像,模型即可生成平滑过渡的画面镜头。即使是看起来毫不相关的两张图,AI 也能通过想象力将其合理化。

此外,视频延展 (Extend) 功能支持用户从前一剪辑的最后一秒扩展视频,可以生成比原始生成 8 秒视频更长的片段,持续一分钟或更长时间。能生成更长的视频对专业创作者来说是有必要的。
在素材生视频 (Ingredients to Video) 功能里,用户可以上传多张参考图像,系统自动生成包含指定角色与场景风格的完整视频,还可以通过 Remove 功能移除画面中的物体或者人物。

不过,这些功能虽然是谷歌首次推出,但在业界来说并不稀奇,国内的众多视频模型早已经有类似首尾帧、素材生视频功能,因此惊喜有限。
在模型性能方面,用户测试显示,Veo 3.1 在提示词遵循、视听质量与音频支持方面比 Veo 3 提升约两到三成,基础物理模拟也有进步,但在复杂画面中仍会出现问题,例如生成的体操视频画面中人会多出部分肢体。整体来看,性能较 Veo 3 提升不大。
Veo 3.1 能否战胜 Sora 2?这也是业界评测关注的重点。根据网友测试,两个模型各有优缺点,但 Sora 2 整体来看得票数更多。Sora 2 在微观写实、光影与物理细节上更常被认可,配音方面也有许多测试显示 Sora 2 的音频更加自然,另外 Sora 2 特别之处在于自动分镜,对视频叙事帮助显著,这方面 Veo 3.1 的镜头变化较为保守,此外对物理世界的理解不如 Sora 2。
在视频长度上,Veo 3.1 支持输出最长 8 秒的视频,在这一点上,Sora 2 更有优势,最新更新后,普通用户可以生成长达 15 秒的视频。
不过,Veo 3.1 的优点是生成速度,要比 Sora 2 快很多,目前 Sora 2 要等数分钟才能得到结果。此外,谷歌在多模态生态上更为成熟,此前发布的图像模型 「Nano Banana」 引发了广泛关注,谷歌在图像与视频模型的联动可以形成完整的创作闭环。
Veo 3.1 目前处于预览阶段,目前用户可以在 Gemini API 、Vertex AI、Gemini 应用以及 Flow 上面付费使用。在接口价格方面,Veo 3.1 标准版是 0.4 美元/秒,快速版是 0.15 美元/秒,对比 Sora2 则是 0.1 美元/秒,Sora2-pro 是 0.3 美元/秒,在价格上的吸引力不如 Sora2。
总结来看,行业认为,Veo3.1 未到超越 Sora2 的地步,但这仅是 Veo 3 到 Veo 3.1 的一次微调,行业更期待谷歌在下一次大版本更新中扳回一局。
回望视频生成赛道,谷歌与 OpenAI 的拉锯战从未停止。2024 年初,Sora 横空出世,引发行业震动,却迟迟未正式发布。同年 5 月,谷歌推出 Veo 1,正式迎战。至 12 月,Veo 2 在物理模拟与风格一致性上取得突破,同期 Sora 正式亮相,当时业界普遍认为 Veo 2 更优。
2025 年 5 月,Veo 3 发布,登顶多榜,稳坐第一梯队。然而 10 月初,OpenAI 抛出 「王炸」Sora 2,再度改写竞争格局。
两大科技巨头都还在 AI 视频领域持续加码,国内玩家如可灵、海螺 AI、即梦等玩家也都有不小的竞争力。视频生成大战中尚无一家具备绝对统治力,AI 视频的 「GPT-3.5 时刻」 仍未到来,未来行业变数仍然很大。
(第一财经)
文章转载自东方财富