【文章来源:techweb】
一、重磅工具:「空间智能」 正式上线,AI 开始自己造世界
新闻:World Labs 发布世界模型 Marble。这个生成式 AI 世界模型允许用户根据文本、图像、视频和 3D 布局等多种输入,生成可持续交互的 3D 环境。这些模型基于渲染场景中的高斯溅射特征生成 3D 世界,能在用户探索时保持一致性。
World Labs 一直在开发能够突破空间智能边界的世界模型,其理念基于该公司创始人李飞飞所提出的 「空间智能是 AI 下一个前沿」。空间智能是 AI 理解物理世界的基础,支持创建和编辑交互式 AI 世界;这项技术有望成为一种基础性的 AI 模型技术,既能服务于视频和图像的生成式 AI 模型,也能支持机器人和自动驾驶汽车等与物理世界交互的 AI 模型。
锐评:这是要造出 《黑客帝国》 母体的节奏。
二、AI 技术与产品发布:从会说话到会 「说人话」,个性成 GPT-5.1 新亮点
1. 新闻:本周 OpenAI 发布 GPT-5.1。作为 GPT-5 的更新版,GPT-5.1 旨在实现更 「富有人情味」 的交互体验。它提供两种主要模式:GPT-5.1 Instant(即时模式),用于快速、热情、遵循指令的聊天;以及 GPT-5.1 Thinking(思考模式),用于更持久的多步骤推理。即时模式能提供快速、友好的回答,而思考模式则会在处理复杂任务时自动放慢速度。而在 「自动」 模式下,ChatGPT 会自动将用户任务分配给最合适的模式。
GPT-5.1 还包含一套更丰富的个性预设 (默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄),让用户可以通过设置微调回复的语气。GPT-5.1 的发布公告并未提及新模型的推理或基准测试能力有何具体提升,而旧版 GPT-5 模型将会保留数月时间。
评测指出,GPT-5.1 感觉更 「温暖」、更具个性化,解决了此前 GPT-5 缺乏个性的问题,在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar 的日常使用评测称 GPT-5.1「能力更强且更可控」。Digital Trends 则表示:「我更喜欢用 Gemini,但 GPT-5.1 更新可能会让 ChatGPT 成为你真正想用的 AI 助手。」
OpenAI 还扩展了 ChatGPT 的协作功能,允许多人与同一个 AI 对话。GPT-5.1 中的这项功能主要针对项目工作、规划和学习小组的需求,允许用户邀请朋友加入进行中的 ChatGPT 对话,并看到 AI 结合上下文回复每个人的消息。
锐评:GPT 情商拉满,终于学会 「好好说话」 了。
2. 新闻:百度发布 ERNIE-4.5-VL-28B-A3B-Thinking,这是一个基于混合专家 (MoE) 架构的新型多模态推理模型。其总参数量为 280 亿,但每个 token 仅激活 30 亿参数。ERNIE-4.5-VL-28B-A3B-Thinking 能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在 MathVista 和其他 VQA(视觉问答) 套件等基准测试中,它的表现与 Gemini 2.5 Pro 和 GPT-5.1 相当,但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking 基于 Apache 2.0 开源许可协议,其文档、演示以及权重已同步上线 Hugging Face。
锐评:百度这波 「以小博大」,证明 「浓缩就是精华」,顺手还给开源了。
3. 新闻:ElevenLabs 推出 Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime 能以低于 150 毫秒的延迟转录语音,目标应用场景包括语音助手、会议助手和实时字幕,并支持 90 多种语言。ElevenLabs 为使用其 API 的用户和开发者提供了产品页面和技术文档。
锐评:话音未落,已转录成文。
4. 新闻:谷歌更新 Android 和 iOS 平台上的 Gemini Live,提供更具适应性和表现力的语音功能。用户现在可以调整语速,听到更细微的语调和节奏变化,还可以要求 AI 用不同角色的口音来讲故事。新版应用还改进了 AI 对语言学习和练习对话的支持。此外,Gemini Live API 中新增的本地音频模型降低了延迟,提升了语音优先应用的性能。
锐评:除了不像人会喘气,啥音都会。
5. 新闻:谷歌在其搜索的 AI 模式以及 Gemini 应用中推出了一整套 AI 购物工具。对话式购物功能可以从包含约 500 亿个产品列表的图谱中提取信息;「智能结账」 功能可跟踪价格,并在商品价格降至用户设定阈值以下时通过 Google Pay 自动下单;「让 Google 致电」 的智能体功能可代替用户致电本地商店,查询库存和促销信息。
锐评:这下网购花钱更快了。
6. 新闻:Terminal-Bench 基准测试已更新至 2.0 版。Terminal-Bench 是一个开源基准测试,包含 89 个实际终端任务,用于评估 AI 智能体在真实 Shell 环境中的操作能力。Terminal-Bench 团队还发布了基于容器的标准框架 Harbor,可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench 的公开排行榜会跟踪各智能体在终端 AI 自动化任务上的表现。
锐评:智能体考试也越来越难,还要比拼敲命令行。
7. 新闻:总部位于巴黎的 H Company 公司发布新一代多模态模型 Holo Two,旨在推动跨平台的计算机使用智能体。Holo Two 模型有 40 亿、80 亿和 300 亿-A3B MoE 三种规模,均是经过调优的视觉语言模型,用于在真实 GUI(图形用户界面) 中进行定位、导航和任务执行。这些模型使智能体能够 「查看」 屏幕,并通过点击和按键来控制屏幕;它们可以在网页、桌面以及移动端运行。Holo Two 模型现已开放权重并上线 Hugging Face 平台。
锐评:能看屏幕、能点按钮、能跑 GUI,这不是把坐办公室的活全包了嘛。
8. 新闻:新发布的 Robyn 是前医生 Jenny Shao 创建的一款富有同理心的 AI 伴侣。作为一款 iOS 应用,Robyn 的定位并非替代心理医生,而是一个高情商的伙伴。它能记住用户的详细信息,具备长期跟踪模式,可以提供关于压力、情感依恋风格和习惯方面的见解,同时为了确保安全还内置了防护措施和危机响应流程。
锐评:明明白白你的心,渴望一份真感情。
9. 新闻:Gemini 3 和 Nano Banana 2 即将发布。Gemini 3 预览版现已在 LMArena 上线,代号为 「riftrunner」。谷歌新一代 AI 图像模型 Nano Banana 2 也已以预览形式出现在 Gemini 应用内。Nano Banana 2 在角度和视点方面具备更强的类相机控制,改进了文本渲染能力,并采用多步骤的 「规划、生成、评估、修复」 工作流,在呈现最终结果前会反复自我修正图像。
锐评:还会反复纠错,AI 出图这是要卷到用户满意为止。
三、AI 研究动态:小模型打出大智慧,多语言多环境 AI 纷纷出炉
1. 新闻:Meta 推出语音识别系统 Omnilingual ASR,能支持超过 1600 种语言和方言。Meta 表示,Omnilingual ASR 是 「被设计成一个社区驱动的框架」,其中包含一套用于自动语音识别 (ASR) 的新型开源 AI 模型和一个涵盖 350 种冷门小语种的转录语音数据集。这些 AI 模型的参数量从 3.5 亿到 70 亿不等,均基于 Meta 的 wav2vec 2.0 架构开发。Meta 在论文 《Omnilingual ASR:支持 1600 多种语言的开源多语言语音识别》 中公布了他们的研究成果。
锐评:能不能听懂我们的温州话?
2. 新闻:微博 AI 发布 VibeThinker-1.5B,并在论文 《小模型,大逻辑:多样性驱动优化在 VibeThinker-1.5B 中激发大模型推理能力》 一文中对其进行了介绍。VibeThinker-1.5B 是一个 15 亿参数的推理模型,针对数学和逻辑任务进行了优化,在数学推理基准测试中的得分超过许多大模型。这款 AI 模型采用多样性驱动的优化策略,能从规模更小的网络中激发出大模型风格的推理行为。
锐评:证明参数不是一切,大模型被啪啪打脸。
3. 新闻:谷歌 DeepMind 推出基于 Gemini 的智能体 SIMA 2,它可在 3D 虚拟世界和商业游戏中运行,通过感知屏幕和控制键盘鼠标来执行任务。据描述,新版比 SIMA 1 更通用且自我改进能力更强,能够处理先前没见过的环境和更复杂的任务。目前 SIMA 2 仍是一个研究性 AI 模型,但被 DeepMind 视为迈向通用智能体、可在丰富模拟环境中通过交互进行学习的重要一步。
锐评:SIMA 2 靠 「看屏幕、敲键鼠」 就能通关,人类玩家的 「高光时刻」 不多了。
四、AI 商业与政策:淘金热度不减,连杨立昆也坐不住了?
1. 新闻:Anthropic 宣布将在未来十年向美国 AI 基础设施投资 500 亿美元,在得克萨斯州和纽约州建立 AI 数据中心,以满足 30 多万商业客户对 Claude 日益增长的需求。这些项目预计将创造约 800 个永久性工作岗位和 2400 个建筑工作岗位,也符合美国保持先进计算领域领导地位的 AI 战略。
锐评:哪是训练 Claude,这分明是在用钞票给 AI 筑巢。
2. 新闻:Meta 首席 AI 科学家杨立昆 (Yann LeCun) 计划离开 Meta,创办自己的公司。他的离职反映出 Meta AI 团队的人事动荡;但这也可能是机遇,或将催生出一个更注重研究的 AI 实验室,追求的成果完全不同于那些专注于大语言模型的 AI 公司。
锐评:小扎的钞能力不好用了?
3. 新闻:AI 原生代码编辑器开发商 Cursor 宣布完成 23 亿美元 D 轮融资,估值达到 293 亿美元。该公司现已用其热门产品 Cursor 给自己命名,据称 2025 年营收增长了 100 倍,并表示年化营收突破 10 亿美元大关,客户包括数百万开发者和许多全球顶尖的工程组织。考虑到 Cursor 惊人的营收增幅,高达 290 亿美元的估值也就不足为奇了。
锐评:AI 时代最赚钱的不是造 AI,而是给造 AI 的 「码农」 造工具。
4. 新闻:欧洲数据保护监察局 (EDPS) 发布 AI 风险管理指导文件,为欧盟机构提供在数据保护法框架下如何管理 AI 系统风险的实用指南。这份名为 《AI 系统风险管理指南》 的文件概述了在公共部门部署 AI 时进行风险评估、文档记录和人工监督的步骤,并将指导意见与 《通用数据保护条例》 的义务和欧盟最新的 《AI 法案》 对齐。
锐评:模型还没跑起来,文件倒出了不少。
五、AI 观点与文章:狂飙之后,该谁来付 「电费」
新闻:彭博社专栏作家警告称,随着超大规模云服务商纷纷锁定数据中心所需的大量能源供应,AI「电力争夺」 正与能源可负担性发生冲突。如果 AI 电力需求上涨冲击到能源价格,可能会引发公众的强烈反对和监管介入。
这种担忧并非首次出现,但政策制定者和企业需要解决谁来为 AI 能源需求背后的基础设施买单的问题。否则公众反对建设 AI 数据中心的声音将会越来越大。
锐评:再不解决 「电费谁出」 的问题,小心公众拔插头。(辰辰)
【文章来源:techweb】
一、重磅工具:「空间智能」 正式上线,AI 开始自己造世界
新闻:World Labs 发布世界模型 Marble。这个生成式 AI 世界模型允许用户根据文本、图像、视频和 3D 布局等多种输入,生成可持续交互的 3D 环境。这些模型基于渲染场景中的高斯溅射特征生成 3D 世界,能在用户探索时保持一致性。
World Labs 一直在开发能够突破空间智能边界的世界模型,其理念基于该公司创始人李飞飞所提出的 「空间智能是 AI 下一个前沿」。空间智能是 AI 理解物理世界的基础,支持创建和编辑交互式 AI 世界;这项技术有望成为一种基础性的 AI 模型技术,既能服务于视频和图像的生成式 AI 模型,也能支持机器人和自动驾驶汽车等与物理世界交互的 AI 模型。
锐评:这是要造出 《黑客帝国》 母体的节奏。
二、AI 技术与产品发布:从会说话到会 「说人话」,个性成 GPT-5.1 新亮点
1. 新闻:本周 OpenAI 发布 GPT-5.1。作为 GPT-5 的更新版,GPT-5.1 旨在实现更 「富有人情味」 的交互体验。它提供两种主要模式:GPT-5.1 Instant(即时模式),用于快速、热情、遵循指令的聊天;以及 GPT-5.1 Thinking(思考模式),用于更持久的多步骤推理。即时模式能提供快速、友好的回答,而思考模式则会在处理复杂任务时自动放慢速度。而在 「自动」 模式下,ChatGPT 会自动将用户任务分配给最合适的模式。
GPT-5.1 还包含一套更丰富的个性预设 (默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄),让用户可以通过设置微调回复的语气。GPT-5.1 的发布公告并未提及新模型的推理或基准测试能力有何具体提升,而旧版 GPT-5 模型将会保留数月时间。
评测指出,GPT-5.1 感觉更 「温暖」、更具个性化,解决了此前 GPT-5 缺乏个性的问题,在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar 的日常使用评测称 GPT-5.1「能力更强且更可控」。Digital Trends 则表示:「我更喜欢用 Gemini,但 GPT-5.1 更新可能会让 ChatGPT 成为你真正想用的 AI 助手。」
OpenAI 还扩展了 ChatGPT 的协作功能,允许多人与同一个 AI 对话。GPT-5.1 中的这项功能主要针对项目工作、规划和学习小组的需求,允许用户邀请朋友加入进行中的 ChatGPT 对话,并看到 AI 结合上下文回复每个人的消息。
锐评:GPT 情商拉满,终于学会 「好好说话」 了。
2. 新闻:百度发布 ERNIE-4.5-VL-28B-A3B-Thinking,这是一个基于混合专家 (MoE) 架构的新型多模态推理模型。其总参数量为 280 亿,但每个 token 仅激活 30 亿参数。ERNIE-4.5-VL-28B-A3B-Thinking 能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在 MathVista 和其他 VQA(视觉问答) 套件等基准测试中,它的表现与 Gemini 2.5 Pro 和 GPT-5.1 相当,但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking 基于 Apache 2.0 开源许可协议,其文档、演示以及权重已同步上线 Hugging Face。
锐评:百度这波 「以小博大」,证明 「浓缩就是精华」,顺手还给开源了。
3. 新闻:ElevenLabs 推出 Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime 能以低于 150 毫秒的延迟转录语音,目标应用场景包括语音助手、会议助手和实时字幕,并支持 90 多种语言。ElevenLabs 为使用其 API 的用户和开发者提供了产品页面和技术文档。
锐评:话音未落,已转录成文。
4. 新闻:谷歌更新 Android 和 iOS 平台上的 Gemini Live,提供更具适应性和表现力的语音功能。用户现在可以调整语速,听到更细微的语调和节奏变化,还可以要求 AI 用不同角色的口音来讲故事。新版应用还改进了 AI 对语言学习和练习对话的支持。此外,Gemini Live API 中新增的本地音频模型降低了延迟,提升了语音优先应用的性能。
锐评:除了不像人会喘气,啥音都会。
5. 新闻:谷歌在其搜索的 AI 模式以及 Gemini 应用中推出了一整套 AI 购物工具。对话式购物功能可以从包含约 500 亿个产品列表的图谱中提取信息;「智能结账」 功能可跟踪价格,并在商品价格降至用户设定阈值以下时通过 Google Pay 自动下单;「让 Google 致电」 的智能体功能可代替用户致电本地商店,查询库存和促销信息。
锐评:这下网购花钱更快了。
6. 新闻:Terminal-Bench 基准测试已更新至 2.0 版。Terminal-Bench 是一个开源基准测试,包含 89 个实际终端任务,用于评估 AI 智能体在真实 Shell 环境中的操作能力。Terminal-Bench 团队还发布了基于容器的标准框架 Harbor,可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench 的公开排行榜会跟踪各智能体在终端 AI 自动化任务上的表现。
锐评:智能体考试也越来越难,还要比拼敲命令行。
7. 新闻:总部位于巴黎的 H Company 公司发布新一代多模态模型 Holo Two,旨在推动跨平台的计算机使用智能体。Holo Two 模型有 40 亿、80 亿和 300 亿-A3B MoE 三种规模,均是经过调优的视觉语言模型,用于在真实 GUI(图形用户界面) 中进行定位、导航和任务执行。这些模型使智能体能够 「查看」 屏幕,并通过点击和按键来控制屏幕;它们可以在网页、桌面以及移动端运行。Holo Two 模型现已开放权重并上线 Hugging Face 平台。
锐评:能看屏幕、能点按钮、能跑 GUI,这不是把坐办公室的活全包了嘛。
8. 新闻:新发布的 Robyn 是前医生 Jenny Shao 创建的一款富有同理心的 AI 伴侣。作为一款 iOS 应用,Robyn 的定位并非替代心理医生,而是一个高情商的伙伴。它能记住用户的详细信息,具备长期跟踪模式,可以提供关于压力、情感依恋风格和习惯方面的见解,同时为了确保安全还内置了防护措施和危机响应流程。
锐评:明明白白你的心,渴望一份真感情。
9. 新闻:Gemini 3 和 Nano Banana 2 即将发布。Gemini 3 预览版现已在 LMArena 上线,代号为 「riftrunner」。谷歌新一代 AI 图像模型 Nano Banana 2 也已以预览形式出现在 Gemini 应用内。Nano Banana 2 在角度和视点方面具备更强的类相机控制,改进了文本渲染能力,并采用多步骤的 「规划、生成、评估、修复」 工作流,在呈现最终结果前会反复自我修正图像。
锐评:还会反复纠错,AI 出图这是要卷到用户满意为止。
三、AI 研究动态:小模型打出大智慧,多语言多环境 AI 纷纷出炉
1. 新闻:Meta 推出语音识别系统 Omnilingual ASR,能支持超过 1600 种语言和方言。Meta 表示,Omnilingual ASR 是 「被设计成一个社区驱动的框架」,其中包含一套用于自动语音识别 (ASR) 的新型开源 AI 模型和一个涵盖 350 种冷门小语种的转录语音数据集。这些 AI 模型的参数量从 3.5 亿到 70 亿不等,均基于 Meta 的 wav2vec 2.0 架构开发。Meta 在论文 《Omnilingual ASR:支持 1600 多种语言的开源多语言语音识别》 中公布了他们的研究成果。
锐评:能不能听懂我们的温州话?
2. 新闻:微博 AI 发布 VibeThinker-1.5B,并在论文 《小模型,大逻辑:多样性驱动优化在 VibeThinker-1.5B 中激发大模型推理能力》 一文中对其进行了介绍。VibeThinker-1.5B 是一个 15 亿参数的推理模型,针对数学和逻辑任务进行了优化,在数学推理基准测试中的得分超过许多大模型。这款 AI 模型采用多样性驱动的优化策略,能从规模更小的网络中激发出大模型风格的推理行为。
锐评:证明参数不是一切,大模型被啪啪打脸。
3. 新闻:谷歌 DeepMind 推出基于 Gemini 的智能体 SIMA 2,它可在 3D 虚拟世界和商业游戏中运行,通过感知屏幕和控制键盘鼠标来执行任务。据描述,新版比 SIMA 1 更通用且自我改进能力更强,能够处理先前没见过的环境和更复杂的任务。目前 SIMA 2 仍是一个研究性 AI 模型,但被 DeepMind 视为迈向通用智能体、可在丰富模拟环境中通过交互进行学习的重要一步。
锐评:SIMA 2 靠 「看屏幕、敲键鼠」 就能通关,人类玩家的 「高光时刻」 不多了。
四、AI 商业与政策:淘金热度不减,连杨立昆也坐不住了?
1. 新闻:Anthropic 宣布将在未来十年向美国 AI 基础设施投资 500 亿美元,在得克萨斯州和纽约州建立 AI 数据中心,以满足 30 多万商业客户对 Claude 日益增长的需求。这些项目预计将创造约 800 个永久性工作岗位和 2400 个建筑工作岗位,也符合美国保持先进计算领域领导地位的 AI 战略。
锐评:哪是训练 Claude,这分明是在用钞票给 AI 筑巢。
2. 新闻:Meta 首席 AI 科学家杨立昆 (Yann LeCun) 计划离开 Meta,创办自己的公司。他的离职反映出 Meta AI 团队的人事动荡;但这也可能是机遇,或将催生出一个更注重研究的 AI 实验室,追求的成果完全不同于那些专注于大语言模型的 AI 公司。
锐评:小扎的钞能力不好用了?
3. 新闻:AI 原生代码编辑器开发商 Cursor 宣布完成 23 亿美元 D 轮融资,估值达到 293 亿美元。该公司现已用其热门产品 Cursor 给自己命名,据称 2025 年营收增长了 100 倍,并表示年化营收突破 10 亿美元大关,客户包括数百万开发者和许多全球顶尖的工程组织。考虑到 Cursor 惊人的营收增幅,高达 290 亿美元的估值也就不足为奇了。
锐评:AI 时代最赚钱的不是造 AI,而是给造 AI 的 「码农」 造工具。
4. 新闻:欧洲数据保护监察局 (EDPS) 发布 AI 风险管理指导文件,为欧盟机构提供在数据保护法框架下如何管理 AI 系统风险的实用指南。这份名为 《AI 系统风险管理指南》 的文件概述了在公共部门部署 AI 时进行风险评估、文档记录和人工监督的步骤,并将指导意见与 《通用数据保护条例》 的义务和欧盟最新的 《AI 法案》 对齐。
锐评:模型还没跑起来,文件倒出了不少。
五、AI 观点与文章:狂飙之后,该谁来付 「电费」
新闻:彭博社专栏作家警告称,随着超大规模云服务商纷纷锁定数据中心所需的大量能源供应,AI「电力争夺」 正与能源可负担性发生冲突。如果 AI 电力需求上涨冲击到能源价格,可能会引发公众的强烈反对和监管介入。
这种担忧并非首次出现,但政策制定者和企业需要解决谁来为 AI 能源需求背后的基础设施买单的问题。否则公众反对建设 AI 数据中心的声音将会越来越大。
锐评:再不解决 「电费谁出」 的问题,小心公众拔插头。(辰辰)
【文章来源:techweb】
一、重磅工具:「空间智能」 正式上线,AI 开始自己造世界
新闻:World Labs 发布世界模型 Marble。这个生成式 AI 世界模型允许用户根据文本、图像、视频和 3D 布局等多种输入,生成可持续交互的 3D 环境。这些模型基于渲染场景中的高斯溅射特征生成 3D 世界,能在用户探索时保持一致性。
World Labs 一直在开发能够突破空间智能边界的世界模型,其理念基于该公司创始人李飞飞所提出的 「空间智能是 AI 下一个前沿」。空间智能是 AI 理解物理世界的基础,支持创建和编辑交互式 AI 世界;这项技术有望成为一种基础性的 AI 模型技术,既能服务于视频和图像的生成式 AI 模型,也能支持机器人和自动驾驶汽车等与物理世界交互的 AI 模型。
锐评:这是要造出 《黑客帝国》 母体的节奏。
二、AI 技术与产品发布:从会说话到会 「说人话」,个性成 GPT-5.1 新亮点
1. 新闻:本周 OpenAI 发布 GPT-5.1。作为 GPT-5 的更新版,GPT-5.1 旨在实现更 「富有人情味」 的交互体验。它提供两种主要模式:GPT-5.1 Instant(即时模式),用于快速、热情、遵循指令的聊天;以及 GPT-5.1 Thinking(思考模式),用于更持久的多步骤推理。即时模式能提供快速、友好的回答,而思考模式则会在处理复杂任务时自动放慢速度。而在 「自动」 模式下,ChatGPT 会自动将用户任务分配给最合适的模式。
GPT-5.1 还包含一套更丰富的个性预设 (默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄),让用户可以通过设置微调回复的语气。GPT-5.1 的发布公告并未提及新模型的推理或基准测试能力有何具体提升,而旧版 GPT-5 模型将会保留数月时间。
评测指出,GPT-5.1 感觉更 「温暖」、更具个性化,解决了此前 GPT-5 缺乏个性的问题,在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar 的日常使用评测称 GPT-5.1「能力更强且更可控」。Digital Trends 则表示:「我更喜欢用 Gemini,但 GPT-5.1 更新可能会让 ChatGPT 成为你真正想用的 AI 助手。」
OpenAI 还扩展了 ChatGPT 的协作功能,允许多人与同一个 AI 对话。GPT-5.1 中的这项功能主要针对项目工作、规划和学习小组的需求,允许用户邀请朋友加入进行中的 ChatGPT 对话,并看到 AI 结合上下文回复每个人的消息。
锐评:GPT 情商拉满,终于学会 「好好说话」 了。
2. 新闻:百度发布 ERNIE-4.5-VL-28B-A3B-Thinking,这是一个基于混合专家 (MoE) 架构的新型多模态推理模型。其总参数量为 280 亿,但每个 token 仅激活 30 亿参数。ERNIE-4.5-VL-28B-A3B-Thinking 能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在 MathVista 和其他 VQA(视觉问答) 套件等基准测试中,它的表现与 Gemini 2.5 Pro 和 GPT-5.1 相当,但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking 基于 Apache 2.0 开源许可协议,其文档、演示以及权重已同步上线 Hugging Face。
锐评:百度这波 「以小博大」,证明 「浓缩就是精华」,顺手还给开源了。
3. 新闻:ElevenLabs 推出 Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime 能以低于 150 毫秒的延迟转录语音,目标应用场景包括语音助手、会议助手和实时字幕,并支持 90 多种语言。ElevenLabs 为使用其 API 的用户和开发者提供了产品页面和技术文档。
锐评:话音未落,已转录成文。
4. 新闻:谷歌更新 Android 和 iOS 平台上的 Gemini Live,提供更具适应性和表现力的语音功能。用户现在可以调整语速,听到更细微的语调和节奏变化,还可以要求 AI 用不同角色的口音来讲故事。新版应用还改进了 AI 对语言学习和练习对话的支持。此外,Gemini Live API 中新增的本地音频模型降低了延迟,提升了语音优先应用的性能。
锐评:除了不像人会喘气,啥音都会。
5. 新闻:谷歌在其搜索的 AI 模式以及 Gemini 应用中推出了一整套 AI 购物工具。对话式购物功能可以从包含约 500 亿个产品列表的图谱中提取信息;「智能结账」 功能可跟踪价格,并在商品价格降至用户设定阈值以下时通过 Google Pay 自动下单;「让 Google 致电」 的智能体功能可代替用户致电本地商店,查询库存和促销信息。
锐评:这下网购花钱更快了。
6. 新闻:Terminal-Bench 基准测试已更新至 2.0 版。Terminal-Bench 是一个开源基准测试,包含 89 个实际终端任务,用于评估 AI 智能体在真实 Shell 环境中的操作能力。Terminal-Bench 团队还发布了基于容器的标准框架 Harbor,可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench 的公开排行榜会跟踪各智能体在终端 AI 自动化任务上的表现。
锐评:智能体考试也越来越难,还要比拼敲命令行。
7. 新闻:总部位于巴黎的 H Company 公司发布新一代多模态模型 Holo Two,旨在推动跨平台的计算机使用智能体。Holo Two 模型有 40 亿、80 亿和 300 亿-A3B MoE 三种规模,均是经过调优的视觉语言模型,用于在真实 GUI(图形用户界面) 中进行定位、导航和任务执行。这些模型使智能体能够 「查看」 屏幕,并通过点击和按键来控制屏幕;它们可以在网页、桌面以及移动端运行。Holo Two 模型现已开放权重并上线 Hugging Face 平台。
锐评:能看屏幕、能点按钮、能跑 GUI,这不是把坐办公室的活全包了嘛。
8. 新闻:新发布的 Robyn 是前医生 Jenny Shao 创建的一款富有同理心的 AI 伴侣。作为一款 iOS 应用,Robyn 的定位并非替代心理医生,而是一个高情商的伙伴。它能记住用户的详细信息,具备长期跟踪模式,可以提供关于压力、情感依恋风格和习惯方面的见解,同时为了确保安全还内置了防护措施和危机响应流程。
锐评:明明白白你的心,渴望一份真感情。
9. 新闻:Gemini 3 和 Nano Banana 2 即将发布。Gemini 3 预览版现已在 LMArena 上线,代号为 「riftrunner」。谷歌新一代 AI 图像模型 Nano Banana 2 也已以预览形式出现在 Gemini 应用内。Nano Banana 2 在角度和视点方面具备更强的类相机控制,改进了文本渲染能力,并采用多步骤的 「规划、生成、评估、修复」 工作流,在呈现最终结果前会反复自我修正图像。
锐评:还会反复纠错,AI 出图这是要卷到用户满意为止。
三、AI 研究动态:小模型打出大智慧,多语言多环境 AI 纷纷出炉
1. 新闻:Meta 推出语音识别系统 Omnilingual ASR,能支持超过 1600 种语言和方言。Meta 表示,Omnilingual ASR 是 「被设计成一个社区驱动的框架」,其中包含一套用于自动语音识别 (ASR) 的新型开源 AI 模型和一个涵盖 350 种冷门小语种的转录语音数据集。这些 AI 模型的参数量从 3.5 亿到 70 亿不等,均基于 Meta 的 wav2vec 2.0 架构开发。Meta 在论文 《Omnilingual ASR:支持 1600 多种语言的开源多语言语音识别》 中公布了他们的研究成果。
锐评:能不能听懂我们的温州话?
2. 新闻:微博 AI 发布 VibeThinker-1.5B,并在论文 《小模型,大逻辑:多样性驱动优化在 VibeThinker-1.5B 中激发大模型推理能力》 一文中对其进行了介绍。VibeThinker-1.5B 是一个 15 亿参数的推理模型,针对数学和逻辑任务进行了优化,在数学推理基准测试中的得分超过许多大模型。这款 AI 模型采用多样性驱动的优化策略,能从规模更小的网络中激发出大模型风格的推理行为。
锐评:证明参数不是一切,大模型被啪啪打脸。
3. 新闻:谷歌 DeepMind 推出基于 Gemini 的智能体 SIMA 2,它可在 3D 虚拟世界和商业游戏中运行,通过感知屏幕和控制键盘鼠标来执行任务。据描述,新版比 SIMA 1 更通用且自我改进能力更强,能够处理先前没见过的环境和更复杂的任务。目前 SIMA 2 仍是一个研究性 AI 模型,但被 DeepMind 视为迈向通用智能体、可在丰富模拟环境中通过交互进行学习的重要一步。
锐评:SIMA 2 靠 「看屏幕、敲键鼠」 就能通关,人类玩家的 「高光时刻」 不多了。
四、AI 商业与政策:淘金热度不减,连杨立昆也坐不住了?
1. 新闻:Anthropic 宣布将在未来十年向美国 AI 基础设施投资 500 亿美元,在得克萨斯州和纽约州建立 AI 数据中心,以满足 30 多万商业客户对 Claude 日益增长的需求。这些项目预计将创造约 800 个永久性工作岗位和 2400 个建筑工作岗位,也符合美国保持先进计算领域领导地位的 AI 战略。
锐评:哪是训练 Claude,这分明是在用钞票给 AI 筑巢。
2. 新闻:Meta 首席 AI 科学家杨立昆 (Yann LeCun) 计划离开 Meta,创办自己的公司。他的离职反映出 Meta AI 团队的人事动荡;但这也可能是机遇,或将催生出一个更注重研究的 AI 实验室,追求的成果完全不同于那些专注于大语言模型的 AI 公司。
锐评:小扎的钞能力不好用了?
3. 新闻:AI 原生代码编辑器开发商 Cursor 宣布完成 23 亿美元 D 轮融资,估值达到 293 亿美元。该公司现已用其热门产品 Cursor 给自己命名,据称 2025 年营收增长了 100 倍,并表示年化营收突破 10 亿美元大关,客户包括数百万开发者和许多全球顶尖的工程组织。考虑到 Cursor 惊人的营收增幅,高达 290 亿美元的估值也就不足为奇了。
锐评:AI 时代最赚钱的不是造 AI,而是给造 AI 的 「码农」 造工具。
4. 新闻:欧洲数据保护监察局 (EDPS) 发布 AI 风险管理指导文件,为欧盟机构提供在数据保护法框架下如何管理 AI 系统风险的实用指南。这份名为 《AI 系统风险管理指南》 的文件概述了在公共部门部署 AI 时进行风险评估、文档记录和人工监督的步骤,并将指导意见与 《通用数据保护条例》 的义务和欧盟最新的 《AI 法案》 对齐。
锐评:模型还没跑起来,文件倒出了不少。
五、AI 观点与文章:狂飙之后,该谁来付 「电费」
新闻:彭博社专栏作家警告称,随着超大规模云服务商纷纷锁定数据中心所需的大量能源供应,AI「电力争夺」 正与能源可负担性发生冲突。如果 AI 电力需求上涨冲击到能源价格,可能会引发公众的强烈反对和监管介入。
这种担忧并非首次出现,但政策制定者和企业需要解决谁来为 AI 能源需求背后的基础设施买单的问题。否则公众反对建设 AI 数据中心的声音将会越来越大。
锐评:再不解决 「电费谁出」 的问题,小心公众拔插头。(辰辰)
【文章来源:techweb】
一、重磅工具:「空间智能」 正式上线,AI 开始自己造世界
新闻:World Labs 发布世界模型 Marble。这个生成式 AI 世界模型允许用户根据文本、图像、视频和 3D 布局等多种输入,生成可持续交互的 3D 环境。这些模型基于渲染场景中的高斯溅射特征生成 3D 世界,能在用户探索时保持一致性。
World Labs 一直在开发能够突破空间智能边界的世界模型,其理念基于该公司创始人李飞飞所提出的 「空间智能是 AI 下一个前沿」。空间智能是 AI 理解物理世界的基础,支持创建和编辑交互式 AI 世界;这项技术有望成为一种基础性的 AI 模型技术,既能服务于视频和图像的生成式 AI 模型,也能支持机器人和自动驾驶汽车等与物理世界交互的 AI 模型。
锐评:这是要造出 《黑客帝国》 母体的节奏。
二、AI 技术与产品发布:从会说话到会 「说人话」,个性成 GPT-5.1 新亮点
1. 新闻:本周 OpenAI 发布 GPT-5.1。作为 GPT-5 的更新版,GPT-5.1 旨在实现更 「富有人情味」 的交互体验。它提供两种主要模式:GPT-5.1 Instant(即时模式),用于快速、热情、遵循指令的聊天;以及 GPT-5.1 Thinking(思考模式),用于更持久的多步骤推理。即时模式能提供快速、友好的回答,而思考模式则会在处理复杂任务时自动放慢速度。而在 「自动」 模式下,ChatGPT 会自动将用户任务分配给最合适的模式。
GPT-5.1 还包含一套更丰富的个性预设 (默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄),让用户可以通过设置微调回复的语气。GPT-5.1 的发布公告并未提及新模型的推理或基准测试能力有何具体提升,而旧版 GPT-5 模型将会保留数月时间。
评测指出,GPT-5.1 感觉更 「温暖」、更具个性化,解决了此前 GPT-5 缺乏个性的问题,在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar 的日常使用评测称 GPT-5.1「能力更强且更可控」。Digital Trends 则表示:「我更喜欢用 Gemini,但 GPT-5.1 更新可能会让 ChatGPT 成为你真正想用的 AI 助手。」
OpenAI 还扩展了 ChatGPT 的协作功能,允许多人与同一个 AI 对话。GPT-5.1 中的这项功能主要针对项目工作、规划和学习小组的需求,允许用户邀请朋友加入进行中的 ChatGPT 对话,并看到 AI 结合上下文回复每个人的消息。
锐评:GPT 情商拉满,终于学会 「好好说话」 了。
2. 新闻:百度发布 ERNIE-4.5-VL-28B-A3B-Thinking,这是一个基于混合专家 (MoE) 架构的新型多模态推理模型。其总参数量为 280 亿,但每个 token 仅激活 30 亿参数。ERNIE-4.5-VL-28B-A3B-Thinking 能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在 MathVista 和其他 VQA(视觉问答) 套件等基准测试中,它的表现与 Gemini 2.5 Pro 和 GPT-5.1 相当,但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking 基于 Apache 2.0 开源许可协议,其文档、演示以及权重已同步上线 Hugging Face。
锐评:百度这波 「以小博大」,证明 「浓缩就是精华」,顺手还给开源了。
3. 新闻:ElevenLabs 推出 Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime 能以低于 150 毫秒的延迟转录语音,目标应用场景包括语音助手、会议助手和实时字幕,并支持 90 多种语言。ElevenLabs 为使用其 API 的用户和开发者提供了产品页面和技术文档。
锐评:话音未落,已转录成文。
4. 新闻:谷歌更新 Android 和 iOS 平台上的 Gemini Live,提供更具适应性和表现力的语音功能。用户现在可以调整语速,听到更细微的语调和节奏变化,还可以要求 AI 用不同角色的口音来讲故事。新版应用还改进了 AI 对语言学习和练习对话的支持。此外,Gemini Live API 中新增的本地音频模型降低了延迟,提升了语音优先应用的性能。
锐评:除了不像人会喘气,啥音都会。
5. 新闻:谷歌在其搜索的 AI 模式以及 Gemini 应用中推出了一整套 AI 购物工具。对话式购物功能可以从包含约 500 亿个产品列表的图谱中提取信息;「智能结账」 功能可跟踪价格,并在商品价格降至用户设定阈值以下时通过 Google Pay 自动下单;「让 Google 致电」 的智能体功能可代替用户致电本地商店,查询库存和促销信息。
锐评:这下网购花钱更快了。
6. 新闻:Terminal-Bench 基准测试已更新至 2.0 版。Terminal-Bench 是一个开源基准测试,包含 89 个实际终端任务,用于评估 AI 智能体在真实 Shell 环境中的操作能力。Terminal-Bench 团队还发布了基于容器的标准框架 Harbor,可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench 的公开排行榜会跟踪各智能体在终端 AI 自动化任务上的表现。
锐评:智能体考试也越来越难,还要比拼敲命令行。
7. 新闻:总部位于巴黎的 H Company 公司发布新一代多模态模型 Holo Two,旨在推动跨平台的计算机使用智能体。Holo Two 模型有 40 亿、80 亿和 300 亿-A3B MoE 三种规模,均是经过调优的视觉语言模型,用于在真实 GUI(图形用户界面) 中进行定位、导航和任务执行。这些模型使智能体能够 「查看」 屏幕,并通过点击和按键来控制屏幕;它们可以在网页、桌面以及移动端运行。Holo Two 模型现已开放权重并上线 Hugging Face 平台。
锐评:能看屏幕、能点按钮、能跑 GUI,这不是把坐办公室的活全包了嘛。
8. 新闻:新发布的 Robyn 是前医生 Jenny Shao 创建的一款富有同理心的 AI 伴侣。作为一款 iOS 应用,Robyn 的定位并非替代心理医生,而是一个高情商的伙伴。它能记住用户的详细信息,具备长期跟踪模式,可以提供关于压力、情感依恋风格和习惯方面的见解,同时为了确保安全还内置了防护措施和危机响应流程。
锐评:明明白白你的心,渴望一份真感情。
9. 新闻:Gemini 3 和 Nano Banana 2 即将发布。Gemini 3 预览版现已在 LMArena 上线,代号为 「riftrunner」。谷歌新一代 AI 图像模型 Nano Banana 2 也已以预览形式出现在 Gemini 应用内。Nano Banana 2 在角度和视点方面具备更强的类相机控制,改进了文本渲染能力,并采用多步骤的 「规划、生成、评估、修复」 工作流,在呈现最终结果前会反复自我修正图像。
锐评:还会反复纠错,AI 出图这是要卷到用户满意为止。
三、AI 研究动态:小模型打出大智慧,多语言多环境 AI 纷纷出炉
1. 新闻:Meta 推出语音识别系统 Omnilingual ASR,能支持超过 1600 种语言和方言。Meta 表示,Omnilingual ASR 是 「被设计成一个社区驱动的框架」,其中包含一套用于自动语音识别 (ASR) 的新型开源 AI 模型和一个涵盖 350 种冷门小语种的转录语音数据集。这些 AI 模型的参数量从 3.5 亿到 70 亿不等,均基于 Meta 的 wav2vec 2.0 架构开发。Meta 在论文 《Omnilingual ASR:支持 1600 多种语言的开源多语言语音识别》 中公布了他们的研究成果。
锐评:能不能听懂我们的温州话?
2. 新闻:微博 AI 发布 VibeThinker-1.5B,并在论文 《小模型,大逻辑:多样性驱动优化在 VibeThinker-1.5B 中激发大模型推理能力》 一文中对其进行了介绍。VibeThinker-1.5B 是一个 15 亿参数的推理模型,针对数学和逻辑任务进行了优化,在数学推理基准测试中的得分超过许多大模型。这款 AI 模型采用多样性驱动的优化策略,能从规模更小的网络中激发出大模型风格的推理行为。
锐评:证明参数不是一切,大模型被啪啪打脸。
3. 新闻:谷歌 DeepMind 推出基于 Gemini 的智能体 SIMA 2,它可在 3D 虚拟世界和商业游戏中运行,通过感知屏幕和控制键盘鼠标来执行任务。据描述,新版比 SIMA 1 更通用且自我改进能力更强,能够处理先前没见过的环境和更复杂的任务。目前 SIMA 2 仍是一个研究性 AI 模型,但被 DeepMind 视为迈向通用智能体、可在丰富模拟环境中通过交互进行学习的重要一步。
锐评:SIMA 2 靠 「看屏幕、敲键鼠」 就能通关,人类玩家的 「高光时刻」 不多了。
四、AI 商业与政策:淘金热度不减,连杨立昆也坐不住了?
1. 新闻:Anthropic 宣布将在未来十年向美国 AI 基础设施投资 500 亿美元,在得克萨斯州和纽约州建立 AI 数据中心,以满足 30 多万商业客户对 Claude 日益增长的需求。这些项目预计将创造约 800 个永久性工作岗位和 2400 个建筑工作岗位,也符合美国保持先进计算领域领导地位的 AI 战略。
锐评:哪是训练 Claude,这分明是在用钞票给 AI 筑巢。
2. 新闻:Meta 首席 AI 科学家杨立昆 (Yann LeCun) 计划离开 Meta,创办自己的公司。他的离职反映出 Meta AI 团队的人事动荡;但这也可能是机遇,或将催生出一个更注重研究的 AI 实验室,追求的成果完全不同于那些专注于大语言模型的 AI 公司。
锐评:小扎的钞能力不好用了?
3. 新闻:AI 原生代码编辑器开发商 Cursor 宣布完成 23 亿美元 D 轮融资,估值达到 293 亿美元。该公司现已用其热门产品 Cursor 给自己命名,据称 2025 年营收增长了 100 倍,并表示年化营收突破 10 亿美元大关,客户包括数百万开发者和许多全球顶尖的工程组织。考虑到 Cursor 惊人的营收增幅,高达 290 亿美元的估值也就不足为奇了。
锐评:AI 时代最赚钱的不是造 AI,而是给造 AI 的 「码农」 造工具。
4. 新闻:欧洲数据保护监察局 (EDPS) 发布 AI 风险管理指导文件,为欧盟机构提供在数据保护法框架下如何管理 AI 系统风险的实用指南。这份名为 《AI 系统风险管理指南》 的文件概述了在公共部门部署 AI 时进行风险评估、文档记录和人工监督的步骤,并将指导意见与 《通用数据保护条例》 的义务和欧盟最新的 《AI 法案》 对齐。
锐评:模型还没跑起来,文件倒出了不少。
五、AI 观点与文章:狂飙之后,该谁来付 「电费」
新闻:彭博社专栏作家警告称,随着超大规模云服务商纷纷锁定数据中心所需的大量能源供应,AI「电力争夺」 正与能源可负担性发生冲突。如果 AI 电力需求上涨冲击到能源价格,可能会引发公众的强烈反对和监管介入。
这种担忧并非首次出现,但政策制定者和企业需要解决谁来为 AI 能源需求背后的基础设施买单的问题。否则公众反对建设 AI 数据中心的声音将会越来越大。
锐评:再不解决 「电费谁出」 的问题,小心公众拔插头。(辰辰)



