Sora 最强对手登场，谷歌 Veo 3.1 正式发布

【文章来源：techweb】

10 月 16 日消息，在 OpenAI 的 Sora 引发全网热议之际，谷歌正式发布了新一代 AI 视频生成模型 Veo 3.1，试图在这场 AI 视频大战中扳回一城。

美国时间周三，谷歌宣布这款旗舰级视频生成工具已面向付费 Gemini 用户开放，同时支持 Flow 电影制作平台、Gemini API 及 Vertex AI 平台调用。

谷歌此次更新为其 AI 视频生成器带来了对象级编辑（Object-level Editing）、多图像场景控制、首尾帧过渡和更丰富的背景音频等功能，让用户在处理每次提示时都能获得更强的创作控制力和电影级画质。

如果说 Sora 2 是 AI 界的「抖音」，以快速便捷取胜，那么 Veo 3.1 就是「奈飞」，它更注重品质、沉浸感与专业控制。这或许标志着迄今为止最实用的 AI 视频生成工具已经到来。

精准掌控：从「接受结果」到「塑造愿景」

与 Sora 2 的「生成即所得」不同，Veo 3.1 让用户能够精细调整每一个细节。谷歌通过提升分辨率和加速生成，真正将电影制作的能力交到了用户手中。其核心突破体现在：

· 对象编辑：可在任何场景中添加或移除物体，如同视频版的「智能填充」（Content-Aware Fill）。

· 场景延伸：可将视频突破原始结尾，并保留环境音效，实现无缝叙事延续。

· 智能过渡：只需提供首尾两张静态图像，即可生成电影级的开场或结尾转场。

· 多图引导：通过多张参考图像精准控制角色、物件与场景氛围。

对象级编辑：重构叙事的新维度

对象级精准编辑堪称本次最亮眼的升级。用户现在可以像专业剪辑师一样，通过添加或移除物体、人物甚至景观来改变故事走向。

「插入物体」功能现已开放，「移除物体」功能也即将推出。这些升级让场景编辑变得直观简单，无论是让森林中凭空出现猫头鹰与树木，还是将汽车替换为宇宙飞船，都只需简单操作。任何不协调的元素都能通过指向和提示轻松消除。

更令人印象深刻的是，Veo 3.1 能够自动处理场景光照与阴影，确保所有编辑都自然融入画面。

四大独门利器：Veo 的差异化优势

Veo 的真正竞争力在于其模块化创意工具集，让 AI 成为专业视频工作流的一部分：

· 素材转视频（Ingredients to Video）：输入多张参考图像，Veo 将其融合成连贯场景，用户全程掌控风格与元素。

· 首尾帧过渡（First & Last Frame）：提供首尾静态图，模型便可自动生成流畅转场，完美呈现情绪转换、瞬间移动等效果。

· 场景延伸（Scene Extension）：可延续现有视频的叙事，并保持视觉风格与背景音频的连贯性。

· 物体插删（Insert/Remove Object）：实现精细化的世界构建与故事讲述，无论是清理画面还是添加新元素皆可。

音频升级：沉浸式叙事新体验

除了画质提升，Veo 3.1 在音频方面也有重大突破。新模型提供更丰富的背景音效和更强的叙事理解能力，能够更自然地遵循电影叙事结构。从此，场景能够承载情绪、节奏与基调。

相比之下，Sora 仍在节奏把控和语音控制方面存在局限。而 Veo 3.1 承诺能够理解上下文语境，如同用户的私人制片助理般协助场景创作。

透明定价，成本可控

目前 Veo 3.1 处于预览阶段，仅面向 Gemini API 付费用户开放。计费标准延续前代：

· 标准版：每秒视频 0.40 美元

· Fast 版：每秒视频 0.15 美元

Veo 3.1 采用按需计费模式，仅对成功生成的视频收费，无免费额度。这种透明的定价策略便于企业团队进行预算管理。

该模型支持 720p/1080p 分辨率输出，帧率为 24fps。基础时长为 4-8 秒，通过「延伸」功能最长可达 148 秒。

特别值得一提的是，企业用户上传产品图像或品牌风格参考后，系统能够精准复现并保持这些视觉元素在不同生成内容中的一致性，这对零售、广告等行业的内容标准化生产极具价值。

全面集成到谷歌生态系统

更新后的视频 AI 模型将全面接入谷歌生态系统。用户既可通过 Gemini 应用使用 Veo 3.1 及其 Fast 版本进行创作，开发者也能通过 Vertex AI 平台和 Gemini API 调用该模型。

今年初亮相的 Veo 已引发行业震动，在 Veo 2 发布仅数月后，新一代模型就在视频质量上实现了跨越式进步。显然，YouTube 海量的视频资源为 AI 模型训练提供了得天独厚的条件，如今谷歌又携一系列新功能快步推出了 Veo 3.1。

谷歌表示，Veo 3.1 对提示词的理解更加精准，不仅能生成更优质的视频内容，还能减少无效计算消耗。作为 Veo 3 标志性功能的音频系统也得到进一步优化。虽然前代模型的文本转视频功能仅限于生成 720p 横屏视频，但为适应互联网上日益增长的竖屏内容需求，Veo 3.1 已同时支持横屏与 16:9 竖屏视频生成。

此前谷歌曾承诺将把 Veo 视频工具整合至 YouTube Shorts 中，这类短视频与 TikTok 一样采用竖屏格式。Veo 3.1 的发布无疑为这一承诺的落地铺平了道路。可以预见，符合平台格式要求的 Veo 生成视频未来在 TikTok 上的出现频率也将大幅提升。

此举也让谷歌在与老对手 OpenAI 的竞争中保持了火力，后者近期刚在移动端应用中集成了新版视频 AI。

技术竞赛：从音频同步到社交适配

今年初在 I/O 开发者大会亮相的 Veo 3 曾率先实现原生 AI 生成同步音频，成为首个具备该功能的视频生成工具。谷歌今年在生成式媒体领域持续加码，其 AI 图像模型（如生成「纳米香蕉飞船」的示例）也曾引发广泛关注。

然而，OpenAI 的强势进击改变了竞争格局。这家 ChatGPT 制造商不仅推出了新版 Sora 视频生成系统，还开发了类似 TikTok 的社交媒体应用。正当 Sora 邀请码在爱好者圈中一码难求的同时，专家们更担忧其制作逼真深度伪造内容的能力，这或将进一步加剧网络信息生态的恶化，让互联网充斥更多 AI 生成的劣质内容（AI slop）。

Veo 与 Sora 等 AI 视频生成器的崛起，凸显了生成式 AI 在创意行业扮演的争议性角色。众多摄像师、电影制作人和创作者担忧，他们的作品正被用于训练 AI 模型，最终成为制片公司和流媒体平台替代人类创作者的工具。

在舆论激烈交锋的同时，越来越多的艺术家和作家正以侵犯版权及其他知识产权问题为由将 AI 公司告上法庭。

随着两大科技巨头在 AI 视频领域持续加码，这场关于技术创新、创作生态与知识产权保护的复杂博弈正在进入新的阶段。（小小）

【文章来源：techweb】

10 月 16 日消息，在 OpenAI 的 Sora 引发全网热议之际，谷歌正式发布了新一代 AI 视频生成模型 Veo 3.1，试图在这场 AI 视频大战中扳回一城。

美国时间周三，谷歌宣布这款旗舰级视频生成工具已面向付费 Gemini 用户开放，同时支持 Flow 电影制作平台、Gemini API 及 Vertex AI 平台调用。

精准掌控：从「接受结果」到「塑造愿景」

· 对象编辑：可在任何场景中添加或移除物体，如同视频版的「智能填充」（Content-Aware Fill）。

· 场景延伸：可将视频突破原始结尾，并保留环境音效，实现无缝叙事延续。

· 智能过渡：只需提供首尾两张静态图像，即可生成电影级的开场或结尾转场。

· 多图引导：通过多张参考图像精准控制角色、物件与场景氛围。

对象级编辑：重构叙事的新维度

对象级精准编辑堪称本次最亮眼的升级。用户现在可以像专业剪辑师一样，通过添加或移除物体、人物甚至景观来改变故事走向。

更令人印象深刻的是，Veo 3.1 能够自动处理场景光照与阴影，确保所有编辑都自然融入画面。

四大独门利器：Veo 的差异化优势

Veo 的真正竞争力在于其模块化创意工具集，让 AI 成为专业视频工作流的一部分：

· 素材转视频（Ingredients to Video）：输入多张参考图像，Veo 将其融合成连贯场景，用户全程掌控风格与元素。

· 首尾帧过渡（First & Last Frame）：提供首尾静态图，模型便可自动生成流畅转场，完美呈现情绪转换、瞬间移动等效果。

· 场景延伸（Scene Extension）：可延续现有视频的叙事，并保持视觉风格与背景音频的连贯性。

· 物体插删（Insert/Remove Object）：实现精细化的世界构建与故事讲述，无论是清理画面还是添加新元素皆可。

音频升级：沉浸式叙事新体验

相比之下，Sora 仍在节奏把控和语音控制方面存在局限。而 Veo 3.1 承诺能够理解上下文语境，如同用户的私人制片助理般协助场景创作。

透明定价，成本可控

目前 Veo 3.1 处于预览阶段，仅面向 Gemini API 付费用户开放。计费标准延续前代：

· 标准版：每秒视频 0.40 美元

· Fast 版：每秒视频 0.15 美元

Veo 3.1 采用按需计费模式，仅对成功生成的视频收费，无免费额度。这种透明的定价策略便于企业团队进行预算管理。

该模型支持 720p/1080p 分辨率输出，帧率为 24fps。基础时长为 4-8 秒，通过「延伸」功能最长可达 148 秒。

全面集成到谷歌生态系统

此举也让谷歌在与老对手 OpenAI 的竞争中保持了火力，后者近期刚在移动端应用中集成了新版视频 AI。

技术竞赛：从音频同步到社交适配

在舆论激烈交锋的同时，越来越多的艺术家和作家正以侵犯版权及其他知识产权问题为由将 AI 公司告上法庭。

随着两大科技巨头在 AI 视频领域持续加码，这场关于技术创新、创作生态与知识产权保护的复杂博弈正在进入新的阶段。（小小）

高盛：AI 热潮并非泡沫目前仍处于「开场阶段」

特斯拉得克萨斯超级工厂已生产 50 万辆电动汽车

【文章来源：techweb】

10 月 16 日消息，在 OpenAI 的 Sora 引发全网热议之际，谷歌正式发布了新一代 AI 视频生成模型 Veo 3.1，试图在这场 AI 视频大战中扳回一城。

美国时间周三，谷歌宣布这款旗舰级视频生成工具已面向付费 Gemini 用户开放，同时支持 Flow 电影制作平台、Gemini API 及 Vertex AI 平台调用。

精准掌控：从「接受结果」到「塑造愿景」

· 对象编辑：可在任何场景中添加或移除物体，如同视频版的「智能填充」（Content-Aware Fill）。

· 场景延伸：可将视频突破原始结尾，并保留环境音效，实现无缝叙事延续。

· 智能过渡：只需提供首尾两张静态图像，即可生成电影级的开场或结尾转场。

· 多图引导：通过多张参考图像精准控制角色、物件与场景氛围。

对象级编辑：重构叙事的新维度

对象级精准编辑堪称本次最亮眼的升级。用户现在可以像专业剪辑师一样，通过添加或移除物体、人物甚至景观来改变故事走向。

更令人印象深刻的是，Veo 3.1 能够自动处理场景光照与阴影，确保所有编辑都自然融入画面。

四大独门利器：Veo 的差异化优势

Veo 的真正竞争力在于其模块化创意工具集，让 AI 成为专业视频工作流的一部分：

· 素材转视频（Ingredients to Video）：输入多张参考图像，Veo 将其融合成连贯场景，用户全程掌控风格与元素。

· 首尾帧过渡（First & Last Frame）：提供首尾静态图，模型便可自动生成流畅转场，完美呈现情绪转换、瞬间移动等效果。

· 场景延伸（Scene Extension）：可延续现有视频的叙事，并保持视觉风格与背景音频的连贯性。

· 物体插删（Insert/Remove Object）：实现精细化的世界构建与故事讲述，无论是清理画面还是添加新元素皆可。

音频升级：沉浸式叙事新体验

相比之下，Sora 仍在节奏把控和语音控制方面存在局限。而 Veo 3.1 承诺能够理解上下文语境，如同用户的私人制片助理般协助场景创作。

透明定价，成本可控

目前 Veo 3.1 处于预览阶段，仅面向 Gemini API 付费用户开放。计费标准延续前代：

· 标准版：每秒视频 0.40 美元

· Fast 版：每秒视频 0.15 美元

Veo 3.1 采用按需计费模式，仅对成功生成的视频收费，无免费额度。这种透明的定价策略便于企业团队进行预算管理。

该模型支持 720p/1080p 分辨率输出，帧率为 24fps。基础时长为 4-8 秒，通过「延伸」功能最长可达 148 秒。

全面集成到谷歌生态系统

此举也让谷歌在与老对手 OpenAI 的竞争中保持了火力，后者近期刚在移动端应用中集成了新版视频 AI。

技术竞赛：从音频同步到社交适配

在舆论激烈交锋的同时，越来越多的艺术家和作家正以侵犯版权及其他知识产权问题为由将 AI 公司告上法庭。

随着两大科技巨头在 AI 视频领域持续加码，这场关于技术创新、创作生态与知识产权保护的复杂博弈正在进入新的阶段。（小小）

【文章来源：techweb】

10 月 16 日消息，在 OpenAI 的 Sora 引发全网热议之际，谷歌正式发布了新一代 AI 视频生成模型 Veo 3.1，试图在这场 AI 视频大战中扳回一城。

美国时间周三，谷歌宣布这款旗舰级视频生成工具已面向付费 Gemini 用户开放，同时支持 Flow 电影制作平台、Gemini API 及 Vertex AI 平台调用。

精准掌控：从「接受结果」到「塑造愿景」

· 对象编辑：可在任何场景中添加或移除物体，如同视频版的「智能填充」（Content-Aware Fill）。

· 场景延伸：可将视频突破原始结尾，并保留环境音效，实现无缝叙事延续。

· 智能过渡：只需提供首尾两张静态图像，即可生成电影级的开场或结尾转场。

· 多图引导：通过多张参考图像精准控制角色、物件与场景氛围。

对象级编辑：重构叙事的新维度

对象级精准编辑堪称本次最亮眼的升级。用户现在可以像专业剪辑师一样，通过添加或移除物体、人物甚至景观来改变故事走向。

更令人印象深刻的是，Veo 3.1 能够自动处理场景光照与阴影，确保所有编辑都自然融入画面。

四大独门利器：Veo 的差异化优势

Veo 的真正竞争力在于其模块化创意工具集，让 AI 成为专业视频工作流的一部分：

· 素材转视频（Ingredients to Video）：输入多张参考图像，Veo 将其融合成连贯场景，用户全程掌控风格与元素。

· 首尾帧过渡（First & Last Frame）：提供首尾静态图，模型便可自动生成流畅转场，完美呈现情绪转换、瞬间移动等效果。

· 场景延伸（Scene Extension）：可延续现有视频的叙事，并保持视觉风格与背景音频的连贯性。

· 物体插删（Insert/Remove Object）：实现精细化的世界构建与故事讲述，无论是清理画面还是添加新元素皆可。

音频升级：沉浸式叙事新体验

相比之下，Sora 仍在节奏把控和语音控制方面存在局限。而 Veo 3.1 承诺能够理解上下文语境，如同用户的私人制片助理般协助场景创作。

透明定价，成本可控

目前 Veo 3.1 处于预览阶段，仅面向 Gemini API 付费用户开放。计费标准延续前代：

· 标准版：每秒视频 0.40 美元

· Fast 版：每秒视频 0.15 美元

Veo 3.1 采用按需计费模式，仅对成功生成的视频收费，无免费额度。这种透明的定价策略便于企业团队进行预算管理。

该模型支持 720p/1080p 分辨率输出，帧率为 24fps。基础时长为 4-8 秒，通过「延伸」功能最长可达 148 秒。

全面集成到谷歌生态系统

此举也让谷歌在与老对手 OpenAI 的竞争中保持了火力，后者近期刚在移动端应用中集成了新版视频 AI。

技术竞赛：从音频同步到社交适配

在舆论激烈交锋的同时，越来越多的艺术家和作家正以侵犯版权及其他知识产权问题为由将 AI 公司告上法庭。

随着两大科技巨头在 AI 视频领域持续加码，这场关于技术创新、创作生态与知识产权保护的复杂博弈正在进入新的阶段。（小小）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31