【文章来源:techweb】
谷歌 Gemini 3 终于在凌晨正式揭幕。
在背负了整整一年 「起大早赶晚集」 的质疑后,周二,谷歌正式发布了其年度重磅模型 Gemini 3。与以往小修小补式的迭代不同,这次更新被视作谷歌对 OpenAI 和 Anthropic 最猛烈的一次反击。据知情人士透露,Gemini 3 的发布甚至在 OpenAI 和 Anthropic 内部引发了不小的 「焦虑」,竞争对手的员工们私下推测,如果谷歌在自动编程和图像生成上实现超越,他们的先发优势可能将荡然无存。
投资机构 JonesTrading 首席市场策略师米克·奥罗克 (Mike O』Rourke) 一针见血地指出:「凭借谷歌在搜索领域的庞大体量和先发优势,它极有可能夺回市场份额,迫使 OpenAI 及其背后的微软陷入被动。」
当谷歌将 Gemini 3 直接植入拥有数十亿用户的搜索框时,这种分发能力具有毁灭性的打击力。反观 OpenAI,虽然目前仍是流量霸主,但面对甲骨文和微软开出的高昂算力账单,其商业模式的容错空间远低于谷歌。
1. 硬核亮点:不只更聪明,还能 「生成界面」(Generative UI)
Gemini 3 的核心技术亮点大致可以归结为一点:试图打破文本对话框的限制。
——生成式 UI (Generative UI): 这是本次更新最大的亮点。以前你问 AI 旅游攻略,它只给你文字;现在 Gemini 3 能直接生成一个交互式界面。当你查询某个历史或艺术问题时,它能混合图形和文本,甚至实时构建微型应用程序。这不仅是回答问题,更是在 「生成体验」。
——Antigravity 编程工具: 这是谷歌面向开发者领域投放的一枚重磅炸弹。这个 「智能体优先」 的编码环境,能让 AI 自动完成软件编写、测试和部署。
——告别 「马屁精」:谷歌特意强调,Gemini 3 减少了 「阿谀奉承 (sycophancy)」。现在的原则是 「告诉你真相,而不是你想听到的话。」 这意味着 Gemini 3 在面对错误前提时,会有更强的批判性思维,而不是一味迎合用户。
——准确率和智能度提升: 谷歌称 Gemini 3 是其最智能的模型,能帮助用户将任何想法变成现实。在标准基准测试中,Gemini 3 的信息准确率达到了 72%。虽然数字在绝对值上看似不高,但在生成式 AI 领域无疑稳居前列。
2. 大 V 亲测:Gemini 三年练成 「博士级」 智能
沃顿商学院教授、AI 领域意见领袖伊桑·莫利克 (Ethan Mollick) 刚刚对 Gemini 3 进行了一番深度测评。
这一次,他没有堆砌枯燥的基准测试分数,而是用一个跨越三年的对比测试,展示了 AI 令人咋舌的进化速度:那个曾经只会陪你聊天的 AI,现在已经变成了能独立干活的 「数字同事」。
——从 「描述」 到 「创造」
三年前 ChatGPT 发布前夕,莫利克曾向早期 GPT-3 输入一个荒诞的提示词:「写一个关于糖果驱动的超光速飞船逃离水獭的故事」。那时候,AI 只能勉强写出一段连贯文字或一首蹩脚诗。
今天,面对同样的提示词,莫利克对 Gemini 3 提出了更高的要求:「用实际行动展示 AI 进步了多少。」
结果,Gemini 3 直接编写并生成了一个可交互、可试玩的网页游戏。在游戏里,你需要真正驾驶那艘糖果飞船去躲避水獭的追击。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克感叹:「2022 年的 AI 只能描述;2025 年,AI 已经可以编写引擎代码、设计界面,并让你亲自驾驶飞船。」
——全能助手 Antigravity
随 Gemini 3 一同发布的还有开发工具 Antigravity。很多人以为这只是给程序员用的,但在莫利克看来,这更像是一个通用的 「智能体工作台」。
他的核心理念在于:在计算机上做的任何事情,本质上都是代码。既然 AI 能搞定代码,它就能搞定一切——无论是处理 Excel、制作 PPT,还是分析本地文件。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克把电脑里存放过往所有文章的文件夹权限都交给了 Antigravity,并下达指令:「帮我把所有关于 AI 的预测整理成一个漂亮页面,并上网搜索验证哪些我说对了,哪些说错了。」
Gemini 3 的表现像极了一位靠谱的员工:
它读取文件,制定计划; 还会在计划生成后的关键节点停下来,等待莫利克的批准; 获得批准后,它自主上网搜索、编写代码、生成网页、甚至控制浏览器进行测试。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克发现,自己与 AI 的交互方式发生了本质变化:不再是用复杂提示词去 「引导」 对话,而是用自然语言去 「指挥」 队友干活。这种可控感和理解力是迈向智能体时代的关键一步。
——写出 「博士级」 论文
为了测试 Gemini 3 的智能极限,莫利克还祭出了终极考验:一套十年前的、格式混乱的、甚至包含损坏数据的旧科研文件。
他给出的指令非常模糊,类似于导师对博士生的要求:「理清这些数据结构」、「写一篇原创论文,要有深度的理论探讨,像给学术期刊投稿那样写」。
结果 Gemini 3 不仅修复了数据,还提出了原创的研究假设,甚至自己编写了一套自然语言处理 (NLP) 算法来衡量众筹项目的 「独特性」 指标,并完成了统计分析。最终,它交出了一篇 14 页的论文。
当然 Gemini 3 也有不完美的地方。就像一个刚读博的学生一样,它的某些统计方法需要修正,某些理论推导略显激进。但在莫利克给出修改意见后,它能迅速领会意思并大幅改进。
莫利克总结道:「如果我们将 『博士级智力』 定义为能像合格研究生那样干活,那么它的确是做到了。」
3. 风评炸锅:Gemini 3「真香」?
——数据派:智商爆表,但是 「昂贵话痨」
权威评测机构 Artificial Analysis 给出的结论喜忧参半,但总体偏向乐观:
· 智力超群: 在智能指数 (Intelligence Index) 测试中,Gemini 3 Pro Preview 拿下 73 分的高分,而同类模型的平均分仅为 42 分。这不仅仅是领先,更是断层式的碾压。
· 极速响应: 128 tokens/秒的生成速度,让 Gemini 3 在处理复杂任务时依然 「健步如飞」,远超行业平均水平 (56 tokens/秒)。
· 钱包预警: 强大的代价是昂贵。虽然输入价格适中,但输出价格高达 12 美元/1M tokens(平均水平为 8.40 美元)。而且,这还是个 「话痨」 模型:测试中它生成了 92M tokens,是平均水平 (27M) 的三倍多。
一句话总结:Gemini 3 聪明、反应快,但废话略多,且每一个字都很贵。
@aniruddhadak 则表示 「基准测试结果」 令人惊叹......「堪称智能体编码工作流的新基石。」
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
@deredleritt3r 也拿数据说话,认为 Gemini 3 在计算机操作方面更是形成了绝对碾压之势:「这是全能电脑特工要出炉的节奏」。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
——体验派:没有 AI 味,碾压优势
随着 Gemini 3 和 Antigravity 的访问权限陆续开放,一众科技博主纷纷上手亲测并发表评论。
作为早期测试者的 @aditabrm 详细评估了 Gemini 3 的强项和局限,称其 「令人印象深刻」,并在发布当天分享了自己的详细测评。
行业观察家 @aagarwal1012 则认为,谷歌 Gemini 3 大幅拉高了同类产品的标准。
科技播客 @SciTechera 更是用一幅图凸显谷歌 Gemini 3 上线后相比于其他竞争对手的绝对优势。
对于每天都要和 AI 打交道的硬核玩家 @Matt Shumer 来说,Gemini 3 直接成了他的 「日常主力工具」(Daily Driver)。他发表的评测更为感性且聚焦于生产力:
· 写作进化: 创意写作终于 「像人」 了,告别了那种一眼假的 「AI 味」。Gemini 3 的行文逻辑连贯,节奏自然,性格也变得干练直接,不再有那些为了凑字数的客套开场白。
· 前端杀手: 这是最大的惊喜。@Matt Shumer 直言其前端能力 「极其出色」,设计细节、微交互、响应式布局,往往一次就能搞定。设计能力的跨度实现了巨大飞跃。
——冷静派:也并不是所有用户都买账。
回到产品本身,谷歌自豪地宣称 Gemini 3 的信息准确率达到了 72%。对于大模型来说,这是一个了不起的数字。但在部分用户眼中,这可能还不够。
初创公司 Oumi 联合创始人 Manos Koukoumidis 直言不讳:「如果人们指望谷歌把他们从 『蓝色链接』 的海洋中拯救出来,并替他们完成工作,目前的水平还远远不够。」
与搜索引擎深度整合后,Gemini 3 能检索信息、验证事实,但 「幻觉」 依然存在。用户期待的是 100% 的可靠性,而 72% 意味着仍有近三成的概率会 「一本正经地胡说八道」。
Gemini 3 正式上线后不久,就有用户在社交平台 X 发文泼了一盆冷水,说虽然它会像 「资深工程师一样声称自己 『搞定』 了,但用户还是要检查」,与其他模型一样存在易出错、半途而废的问题。
还有用户在体验 Gemini 3 预览版时认为有时还不如 2.5 Pro,比如对比二者生成 「鹈鹕骑自行车」 的图片,前者并没有明显优势。
@Matt Shumer 也提到了 Antigravity 的两面性:谷歌新推出的 IDE 虽然强大,但仍需人类进行 「保姆级」 看护,以捕捉模型遗漏的错误。
4. 战局观察:OpenAI 罕见沉默,友商紧急 「抱团」
评价一个模型的强弱,别看它说什么,要看它的对手在做什么。
硅谷观察家约翰·库根 (John Coogan) 用这样一个更有趣的视角来解读 Gemini 3。
——Anthropic 在找靠山。就在谷歌放大招的同时,Anthropic 迅速靠拢微软,达成 300 亿美元的算力合作,并拿到了英伟达和微软的巨额投资。这种 「抱团取暖」 的防御姿态,恰恰印证了谷歌带来的压迫感。
——OpenAI 异常安静。以前最喜欢在谷歌发布会前搞 「截胡」 的 OpenAI,这次却显得格外沉默,仅发布了一些群聊功能和广告业务相关的动作。公司 CEO 萨姆·奥特曼 (Sam Altman) 倒是不忘在 X 平台上对谷歌表示祝贺。谷歌 CEO 桑德尔·皮查伊 (Sundar Pichai) 也作出回应。
——xAI 的焦虑。马斯克麾下的 xAI 则选择了简单粗暴的 「硬刚」,发布会前后在 X 平台上疯狂投放 Grok 的广告,让人不免猜测是否在试图抢夺谷歌的关注度。
5. 结语:技术狂欢背后仍需冷静
根据麦肯锡的数据,到 2030 年,整个 AI 行业预计将花费近 7 万亿美元来建设数据中心和超级计算机。
这是一个天文数字。
对于 Gemini 3 的发布,研究机构 Creative Strategies 首席分析师本·巴贾林 (Ben Bajarin) 颇为冷静:「我们需要真正有能力、高质量的用例,才能看到收入产生实质性流转。但我们现在还没到那一步。」
目前 AI 主要还是用于传统的搜索查询和辅助编程。投资人开始质疑:Anthropic、OpenAI 甚至谷歌,真的能产生足够的销售额来覆盖这万亿美元级别的基建投入吗?
对此,谷歌 DeepMind CEO 戴密斯·哈萨比斯 (Demis Hassabis) 显得颇为淡定。他在 Gemini 3 上线前接受采访时表示,虽然私募市场可能存在泡沫,但谷歌拥有真正的收入引擎。公司云业务季度销售额增长三分之一,达到 150 亿美元。他形容谷歌的状态是 「全情投入 (Locked in)」,并对最终胜出充满信心。(辰辰)
【文章来源:techweb】
谷歌 Gemini 3 终于在凌晨正式揭幕。
在背负了整整一年 「起大早赶晚集」 的质疑后,周二,谷歌正式发布了其年度重磅模型 Gemini 3。与以往小修小补式的迭代不同,这次更新被视作谷歌对 OpenAI 和 Anthropic 最猛烈的一次反击。据知情人士透露,Gemini 3 的发布甚至在 OpenAI 和 Anthropic 内部引发了不小的 「焦虑」,竞争对手的员工们私下推测,如果谷歌在自动编程和图像生成上实现超越,他们的先发优势可能将荡然无存。
投资机构 JonesTrading 首席市场策略师米克·奥罗克 (Mike O』Rourke) 一针见血地指出:「凭借谷歌在搜索领域的庞大体量和先发优势,它极有可能夺回市场份额,迫使 OpenAI 及其背后的微软陷入被动。」
当谷歌将 Gemini 3 直接植入拥有数十亿用户的搜索框时,这种分发能力具有毁灭性的打击力。反观 OpenAI,虽然目前仍是流量霸主,但面对甲骨文和微软开出的高昂算力账单,其商业模式的容错空间远低于谷歌。
1. 硬核亮点:不只更聪明,还能 「生成界面」(Generative UI)
Gemini 3 的核心技术亮点大致可以归结为一点:试图打破文本对话框的限制。
——生成式 UI (Generative UI): 这是本次更新最大的亮点。以前你问 AI 旅游攻略,它只给你文字;现在 Gemini 3 能直接生成一个交互式界面。当你查询某个历史或艺术问题时,它能混合图形和文本,甚至实时构建微型应用程序。这不仅是回答问题,更是在 「生成体验」。
——Antigravity 编程工具: 这是谷歌面向开发者领域投放的一枚重磅炸弹。这个 「智能体优先」 的编码环境,能让 AI 自动完成软件编写、测试和部署。
——告别 「马屁精」:谷歌特意强调,Gemini 3 减少了 「阿谀奉承 (sycophancy)」。现在的原则是 「告诉你真相,而不是你想听到的话。」 这意味着 Gemini 3 在面对错误前提时,会有更强的批判性思维,而不是一味迎合用户。
——准确率和智能度提升: 谷歌称 Gemini 3 是其最智能的模型,能帮助用户将任何想法变成现实。在标准基准测试中,Gemini 3 的信息准确率达到了 72%。虽然数字在绝对值上看似不高,但在生成式 AI 领域无疑稳居前列。
2. 大 V 亲测:Gemini 三年练成 「博士级」 智能
沃顿商学院教授、AI 领域意见领袖伊桑·莫利克 (Ethan Mollick) 刚刚对 Gemini 3 进行了一番深度测评。
这一次,他没有堆砌枯燥的基准测试分数,而是用一个跨越三年的对比测试,展示了 AI 令人咋舌的进化速度:那个曾经只会陪你聊天的 AI,现在已经变成了能独立干活的 「数字同事」。
——从 「描述」 到 「创造」
三年前 ChatGPT 发布前夕,莫利克曾向早期 GPT-3 输入一个荒诞的提示词:「写一个关于糖果驱动的超光速飞船逃离水獭的故事」。那时候,AI 只能勉强写出一段连贯文字或一首蹩脚诗。
今天,面对同样的提示词,莫利克对 Gemini 3 提出了更高的要求:「用实际行动展示 AI 进步了多少。」
结果,Gemini 3 直接编写并生成了一个可交互、可试玩的网页游戏。在游戏里,你需要真正驾驶那艘糖果飞船去躲避水獭的追击。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克感叹:「2022 年的 AI 只能描述;2025 年,AI 已经可以编写引擎代码、设计界面,并让你亲自驾驶飞船。」
——全能助手 Antigravity
随 Gemini 3 一同发布的还有开发工具 Antigravity。很多人以为这只是给程序员用的,但在莫利克看来,这更像是一个通用的 「智能体工作台」。
他的核心理念在于:在计算机上做的任何事情,本质上都是代码。既然 AI 能搞定代码,它就能搞定一切——无论是处理 Excel、制作 PPT,还是分析本地文件。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克把电脑里存放过往所有文章的文件夹权限都交给了 Antigravity,并下达指令:「帮我把所有关于 AI 的预测整理成一个漂亮页面,并上网搜索验证哪些我说对了,哪些说错了。」
Gemini 3 的表现像极了一位靠谱的员工:
它读取文件,制定计划; 还会在计划生成后的关键节点停下来,等待莫利克的批准; 获得批准后,它自主上网搜索、编写代码、生成网页、甚至控制浏览器进行测试。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克发现,自己与 AI 的交互方式发生了本质变化:不再是用复杂提示词去 「引导」 对话,而是用自然语言去 「指挥」 队友干活。这种可控感和理解力是迈向智能体时代的关键一步。
——写出 「博士级」 论文
为了测试 Gemini 3 的智能极限,莫利克还祭出了终极考验:一套十年前的、格式混乱的、甚至包含损坏数据的旧科研文件。
他给出的指令非常模糊,类似于导师对博士生的要求:「理清这些数据结构」、「写一篇原创论文,要有深度的理论探讨,像给学术期刊投稿那样写」。
结果 Gemini 3 不仅修复了数据,还提出了原创的研究假设,甚至自己编写了一套自然语言处理 (NLP) 算法来衡量众筹项目的 「独特性」 指标,并完成了统计分析。最终,它交出了一篇 14 页的论文。
当然 Gemini 3 也有不完美的地方。就像一个刚读博的学生一样,它的某些统计方法需要修正,某些理论推导略显激进。但在莫利克给出修改意见后,它能迅速领会意思并大幅改进。
莫利克总结道:「如果我们将 『博士级智力』 定义为能像合格研究生那样干活,那么它的确是做到了。」
3. 风评炸锅:Gemini 3「真香」?
——数据派:智商爆表,但是 「昂贵话痨」
权威评测机构 Artificial Analysis 给出的结论喜忧参半,但总体偏向乐观:
· 智力超群: 在智能指数 (Intelligence Index) 测试中,Gemini 3 Pro Preview 拿下 73 分的高分,而同类模型的平均分仅为 42 分。这不仅仅是领先,更是断层式的碾压。
· 极速响应: 128 tokens/秒的生成速度,让 Gemini 3 在处理复杂任务时依然 「健步如飞」,远超行业平均水平 (56 tokens/秒)。
· 钱包预警: 强大的代价是昂贵。虽然输入价格适中,但输出价格高达 12 美元/1M tokens(平均水平为 8.40 美元)。而且,这还是个 「话痨」 模型:测试中它生成了 92M tokens,是平均水平 (27M) 的三倍多。
一句话总结:Gemini 3 聪明、反应快,但废话略多,且每一个字都很贵。
@aniruddhadak 则表示 「基准测试结果」 令人惊叹......「堪称智能体编码工作流的新基石。」
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
@deredleritt3r 也拿数据说话,认为 Gemini 3 在计算机操作方面更是形成了绝对碾压之势:「这是全能电脑特工要出炉的节奏」。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
——体验派:没有 AI 味,碾压优势
随着 Gemini 3 和 Antigravity 的访问权限陆续开放,一众科技博主纷纷上手亲测并发表评论。
作为早期测试者的 @aditabrm 详细评估了 Gemini 3 的强项和局限,称其 「令人印象深刻」,并在发布当天分享了自己的详细测评。
行业观察家 @aagarwal1012 则认为,谷歌 Gemini 3 大幅拉高了同类产品的标准。
科技播客 @SciTechera 更是用一幅图凸显谷歌 Gemini 3 上线后相比于其他竞争对手的绝对优势。
对于每天都要和 AI 打交道的硬核玩家 @Matt Shumer 来说,Gemini 3 直接成了他的 「日常主力工具」(Daily Driver)。他发表的评测更为感性且聚焦于生产力:
· 写作进化: 创意写作终于 「像人」 了,告别了那种一眼假的 「AI 味」。Gemini 3 的行文逻辑连贯,节奏自然,性格也变得干练直接,不再有那些为了凑字数的客套开场白。
· 前端杀手: 这是最大的惊喜。@Matt Shumer 直言其前端能力 「极其出色」,设计细节、微交互、响应式布局,往往一次就能搞定。设计能力的跨度实现了巨大飞跃。
——冷静派:也并不是所有用户都买账。
回到产品本身,谷歌自豪地宣称 Gemini 3 的信息准确率达到了 72%。对于大模型来说,这是一个了不起的数字。但在部分用户眼中,这可能还不够。
初创公司 Oumi 联合创始人 Manos Koukoumidis 直言不讳:「如果人们指望谷歌把他们从 『蓝色链接』 的海洋中拯救出来,并替他们完成工作,目前的水平还远远不够。」
与搜索引擎深度整合后,Gemini 3 能检索信息、验证事实,但 「幻觉」 依然存在。用户期待的是 100% 的可靠性,而 72% 意味着仍有近三成的概率会 「一本正经地胡说八道」。
Gemini 3 正式上线后不久,就有用户在社交平台 X 发文泼了一盆冷水,说虽然它会像 「资深工程师一样声称自己 『搞定』 了,但用户还是要检查」,与其他模型一样存在易出错、半途而废的问题。
还有用户在体验 Gemini 3 预览版时认为有时还不如 2.5 Pro,比如对比二者生成 「鹈鹕骑自行车」 的图片,前者并没有明显优势。
@Matt Shumer 也提到了 Antigravity 的两面性:谷歌新推出的 IDE 虽然强大,但仍需人类进行 「保姆级」 看护,以捕捉模型遗漏的错误。
4. 战局观察:OpenAI 罕见沉默,友商紧急 「抱团」
评价一个模型的强弱,别看它说什么,要看它的对手在做什么。
硅谷观察家约翰·库根 (John Coogan) 用这样一个更有趣的视角来解读 Gemini 3。
——Anthropic 在找靠山。就在谷歌放大招的同时,Anthropic 迅速靠拢微软,达成 300 亿美元的算力合作,并拿到了英伟达和微软的巨额投资。这种 「抱团取暖」 的防御姿态,恰恰印证了谷歌带来的压迫感。
——OpenAI 异常安静。以前最喜欢在谷歌发布会前搞 「截胡」 的 OpenAI,这次却显得格外沉默,仅发布了一些群聊功能和广告业务相关的动作。公司 CEO 萨姆·奥特曼 (Sam Altman) 倒是不忘在 X 平台上对谷歌表示祝贺。谷歌 CEO 桑德尔·皮查伊 (Sundar Pichai) 也作出回应。
——xAI 的焦虑。马斯克麾下的 xAI 则选择了简单粗暴的 「硬刚」,发布会前后在 X 平台上疯狂投放 Grok 的广告,让人不免猜测是否在试图抢夺谷歌的关注度。
5. 结语:技术狂欢背后仍需冷静
根据麦肯锡的数据,到 2030 年,整个 AI 行业预计将花费近 7 万亿美元来建设数据中心和超级计算机。
这是一个天文数字。
对于 Gemini 3 的发布,研究机构 Creative Strategies 首席分析师本·巴贾林 (Ben Bajarin) 颇为冷静:「我们需要真正有能力、高质量的用例,才能看到收入产生实质性流转。但我们现在还没到那一步。」
目前 AI 主要还是用于传统的搜索查询和辅助编程。投资人开始质疑:Anthropic、OpenAI 甚至谷歌,真的能产生足够的销售额来覆盖这万亿美元级别的基建投入吗?
对此,谷歌 DeepMind CEO 戴密斯·哈萨比斯 (Demis Hassabis) 显得颇为淡定。他在 Gemini 3 上线前接受采访时表示,虽然私募市场可能存在泡沫,但谷歌拥有真正的收入引擎。公司云业务季度销售额增长三分之一,达到 150 亿美元。他形容谷歌的状态是 「全情投入 (Locked in)」,并对最终胜出充满信心。(辰辰)
【文章来源:techweb】
谷歌 Gemini 3 终于在凌晨正式揭幕。
在背负了整整一年 「起大早赶晚集」 的质疑后,周二,谷歌正式发布了其年度重磅模型 Gemini 3。与以往小修小补式的迭代不同,这次更新被视作谷歌对 OpenAI 和 Anthropic 最猛烈的一次反击。据知情人士透露,Gemini 3 的发布甚至在 OpenAI 和 Anthropic 内部引发了不小的 「焦虑」,竞争对手的员工们私下推测,如果谷歌在自动编程和图像生成上实现超越,他们的先发优势可能将荡然无存。
投资机构 JonesTrading 首席市场策略师米克·奥罗克 (Mike O』Rourke) 一针见血地指出:「凭借谷歌在搜索领域的庞大体量和先发优势,它极有可能夺回市场份额,迫使 OpenAI 及其背后的微软陷入被动。」
当谷歌将 Gemini 3 直接植入拥有数十亿用户的搜索框时,这种分发能力具有毁灭性的打击力。反观 OpenAI,虽然目前仍是流量霸主,但面对甲骨文和微软开出的高昂算力账单,其商业模式的容错空间远低于谷歌。
1. 硬核亮点:不只更聪明,还能 「生成界面」(Generative UI)
Gemini 3 的核心技术亮点大致可以归结为一点:试图打破文本对话框的限制。
——生成式 UI (Generative UI): 这是本次更新最大的亮点。以前你问 AI 旅游攻略,它只给你文字;现在 Gemini 3 能直接生成一个交互式界面。当你查询某个历史或艺术问题时,它能混合图形和文本,甚至实时构建微型应用程序。这不仅是回答问题,更是在 「生成体验」。
——Antigravity 编程工具: 这是谷歌面向开发者领域投放的一枚重磅炸弹。这个 「智能体优先」 的编码环境,能让 AI 自动完成软件编写、测试和部署。
——告别 「马屁精」:谷歌特意强调,Gemini 3 减少了 「阿谀奉承 (sycophancy)」。现在的原则是 「告诉你真相,而不是你想听到的话。」 这意味着 Gemini 3 在面对错误前提时,会有更强的批判性思维,而不是一味迎合用户。
——准确率和智能度提升: 谷歌称 Gemini 3 是其最智能的模型,能帮助用户将任何想法变成现实。在标准基准测试中,Gemini 3 的信息准确率达到了 72%。虽然数字在绝对值上看似不高,但在生成式 AI 领域无疑稳居前列。
2. 大 V 亲测:Gemini 三年练成 「博士级」 智能
沃顿商学院教授、AI 领域意见领袖伊桑·莫利克 (Ethan Mollick) 刚刚对 Gemini 3 进行了一番深度测评。
这一次,他没有堆砌枯燥的基准测试分数,而是用一个跨越三年的对比测试,展示了 AI 令人咋舌的进化速度:那个曾经只会陪你聊天的 AI,现在已经变成了能独立干活的 「数字同事」。
——从 「描述」 到 「创造」
三年前 ChatGPT 发布前夕,莫利克曾向早期 GPT-3 输入一个荒诞的提示词:「写一个关于糖果驱动的超光速飞船逃离水獭的故事」。那时候,AI 只能勉强写出一段连贯文字或一首蹩脚诗。
今天,面对同样的提示词,莫利克对 Gemini 3 提出了更高的要求:「用实际行动展示 AI 进步了多少。」
结果,Gemini 3 直接编写并生成了一个可交互、可试玩的网页游戏。在游戏里,你需要真正驾驶那艘糖果飞船去躲避水獭的追击。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克感叹:「2022 年的 AI 只能描述;2025 年,AI 已经可以编写引擎代码、设计界面,并让你亲自驾驶飞船。」
——全能助手 Antigravity
随 Gemini 3 一同发布的还有开发工具 Antigravity。很多人以为这只是给程序员用的,但在莫利克看来,这更像是一个通用的 「智能体工作台」。
他的核心理念在于:在计算机上做的任何事情,本质上都是代码。既然 AI 能搞定代码,它就能搞定一切——无论是处理 Excel、制作 PPT,还是分析本地文件。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克把电脑里存放过往所有文章的文件夹权限都交给了 Antigravity,并下达指令:「帮我把所有关于 AI 的预测整理成一个漂亮页面,并上网搜索验证哪些我说对了,哪些说错了。」
Gemini 3 的表现像极了一位靠谱的员工:
它读取文件,制定计划; 还会在计划生成后的关键节点停下来,等待莫利克的批准; 获得批准后,它自主上网搜索、编写代码、生成网页、甚至控制浏览器进行测试。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克发现,自己与 AI 的交互方式发生了本质变化:不再是用复杂提示词去 「引导」 对话,而是用自然语言去 「指挥」 队友干活。这种可控感和理解力是迈向智能体时代的关键一步。
——写出 「博士级」 论文
为了测试 Gemini 3 的智能极限,莫利克还祭出了终极考验:一套十年前的、格式混乱的、甚至包含损坏数据的旧科研文件。
他给出的指令非常模糊,类似于导师对博士生的要求:「理清这些数据结构」、「写一篇原创论文,要有深度的理论探讨,像给学术期刊投稿那样写」。
结果 Gemini 3 不仅修复了数据,还提出了原创的研究假设,甚至自己编写了一套自然语言处理 (NLP) 算法来衡量众筹项目的 「独特性」 指标,并完成了统计分析。最终,它交出了一篇 14 页的论文。
当然 Gemini 3 也有不完美的地方。就像一个刚读博的学生一样,它的某些统计方法需要修正,某些理论推导略显激进。但在莫利克给出修改意见后,它能迅速领会意思并大幅改进。
莫利克总结道:「如果我们将 『博士级智力』 定义为能像合格研究生那样干活,那么它的确是做到了。」
3. 风评炸锅:Gemini 3「真香」?
——数据派:智商爆表,但是 「昂贵话痨」
权威评测机构 Artificial Analysis 给出的结论喜忧参半,但总体偏向乐观:
· 智力超群: 在智能指数 (Intelligence Index) 测试中,Gemini 3 Pro Preview 拿下 73 分的高分,而同类模型的平均分仅为 42 分。这不仅仅是领先,更是断层式的碾压。
· 极速响应: 128 tokens/秒的生成速度,让 Gemini 3 在处理复杂任务时依然 「健步如飞」,远超行业平均水平 (56 tokens/秒)。
· 钱包预警: 强大的代价是昂贵。虽然输入价格适中,但输出价格高达 12 美元/1M tokens(平均水平为 8.40 美元)。而且,这还是个 「话痨」 模型:测试中它生成了 92M tokens,是平均水平 (27M) 的三倍多。
一句话总结:Gemini 3 聪明、反应快,但废话略多,且每一个字都很贵。
@aniruddhadak 则表示 「基准测试结果」 令人惊叹......「堪称智能体编码工作流的新基石。」
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
@deredleritt3r 也拿数据说话,认为 Gemini 3 在计算机操作方面更是形成了绝对碾压之势:「这是全能电脑特工要出炉的节奏」。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
——体验派:没有 AI 味,碾压优势
随着 Gemini 3 和 Antigravity 的访问权限陆续开放,一众科技博主纷纷上手亲测并发表评论。
作为早期测试者的 @aditabrm 详细评估了 Gemini 3 的强项和局限,称其 「令人印象深刻」,并在发布当天分享了自己的详细测评。
行业观察家 @aagarwal1012 则认为,谷歌 Gemini 3 大幅拉高了同类产品的标准。
科技播客 @SciTechera 更是用一幅图凸显谷歌 Gemini 3 上线后相比于其他竞争对手的绝对优势。
对于每天都要和 AI 打交道的硬核玩家 @Matt Shumer 来说,Gemini 3 直接成了他的 「日常主力工具」(Daily Driver)。他发表的评测更为感性且聚焦于生产力:
· 写作进化: 创意写作终于 「像人」 了,告别了那种一眼假的 「AI 味」。Gemini 3 的行文逻辑连贯,节奏自然,性格也变得干练直接,不再有那些为了凑字数的客套开场白。
· 前端杀手: 这是最大的惊喜。@Matt Shumer 直言其前端能力 「极其出色」,设计细节、微交互、响应式布局,往往一次就能搞定。设计能力的跨度实现了巨大飞跃。
——冷静派:也并不是所有用户都买账。
回到产品本身,谷歌自豪地宣称 Gemini 3 的信息准确率达到了 72%。对于大模型来说,这是一个了不起的数字。但在部分用户眼中,这可能还不够。
初创公司 Oumi 联合创始人 Manos Koukoumidis 直言不讳:「如果人们指望谷歌把他们从 『蓝色链接』 的海洋中拯救出来,并替他们完成工作,目前的水平还远远不够。」
与搜索引擎深度整合后,Gemini 3 能检索信息、验证事实,但 「幻觉」 依然存在。用户期待的是 100% 的可靠性,而 72% 意味着仍有近三成的概率会 「一本正经地胡说八道」。
Gemini 3 正式上线后不久,就有用户在社交平台 X 发文泼了一盆冷水,说虽然它会像 「资深工程师一样声称自己 『搞定』 了,但用户还是要检查」,与其他模型一样存在易出错、半途而废的问题。
还有用户在体验 Gemini 3 预览版时认为有时还不如 2.5 Pro,比如对比二者生成 「鹈鹕骑自行车」 的图片,前者并没有明显优势。
@Matt Shumer 也提到了 Antigravity 的两面性:谷歌新推出的 IDE 虽然强大,但仍需人类进行 「保姆级」 看护,以捕捉模型遗漏的错误。
4. 战局观察:OpenAI 罕见沉默,友商紧急 「抱团」
评价一个模型的强弱,别看它说什么,要看它的对手在做什么。
硅谷观察家约翰·库根 (John Coogan) 用这样一个更有趣的视角来解读 Gemini 3。
——Anthropic 在找靠山。就在谷歌放大招的同时,Anthropic 迅速靠拢微软,达成 300 亿美元的算力合作,并拿到了英伟达和微软的巨额投资。这种 「抱团取暖」 的防御姿态,恰恰印证了谷歌带来的压迫感。
——OpenAI 异常安静。以前最喜欢在谷歌发布会前搞 「截胡」 的 OpenAI,这次却显得格外沉默,仅发布了一些群聊功能和广告业务相关的动作。公司 CEO 萨姆·奥特曼 (Sam Altman) 倒是不忘在 X 平台上对谷歌表示祝贺。谷歌 CEO 桑德尔·皮查伊 (Sundar Pichai) 也作出回应。
——xAI 的焦虑。马斯克麾下的 xAI 则选择了简单粗暴的 「硬刚」,发布会前后在 X 平台上疯狂投放 Grok 的广告,让人不免猜测是否在试图抢夺谷歌的关注度。
5. 结语:技术狂欢背后仍需冷静
根据麦肯锡的数据,到 2030 年,整个 AI 行业预计将花费近 7 万亿美元来建设数据中心和超级计算机。
这是一个天文数字。
对于 Gemini 3 的发布,研究机构 Creative Strategies 首席分析师本·巴贾林 (Ben Bajarin) 颇为冷静:「我们需要真正有能力、高质量的用例,才能看到收入产生实质性流转。但我们现在还没到那一步。」
目前 AI 主要还是用于传统的搜索查询和辅助编程。投资人开始质疑:Anthropic、OpenAI 甚至谷歌,真的能产生足够的销售额来覆盖这万亿美元级别的基建投入吗?
对此,谷歌 DeepMind CEO 戴密斯·哈萨比斯 (Demis Hassabis) 显得颇为淡定。他在 Gemini 3 上线前接受采访时表示,虽然私募市场可能存在泡沫,但谷歌拥有真正的收入引擎。公司云业务季度销售额增长三分之一,达到 150 亿美元。他形容谷歌的状态是 「全情投入 (Locked in)」,并对最终胜出充满信心。(辰辰)
【文章来源:techweb】
谷歌 Gemini 3 终于在凌晨正式揭幕。
在背负了整整一年 「起大早赶晚集」 的质疑后,周二,谷歌正式发布了其年度重磅模型 Gemini 3。与以往小修小补式的迭代不同,这次更新被视作谷歌对 OpenAI 和 Anthropic 最猛烈的一次反击。据知情人士透露,Gemini 3 的发布甚至在 OpenAI 和 Anthropic 内部引发了不小的 「焦虑」,竞争对手的员工们私下推测,如果谷歌在自动编程和图像生成上实现超越,他们的先发优势可能将荡然无存。
投资机构 JonesTrading 首席市场策略师米克·奥罗克 (Mike O』Rourke) 一针见血地指出:「凭借谷歌在搜索领域的庞大体量和先发优势,它极有可能夺回市场份额,迫使 OpenAI 及其背后的微软陷入被动。」
当谷歌将 Gemini 3 直接植入拥有数十亿用户的搜索框时,这种分发能力具有毁灭性的打击力。反观 OpenAI,虽然目前仍是流量霸主,但面对甲骨文和微软开出的高昂算力账单,其商业模式的容错空间远低于谷歌。
1. 硬核亮点:不只更聪明,还能 「生成界面」(Generative UI)
Gemini 3 的核心技术亮点大致可以归结为一点:试图打破文本对话框的限制。
——生成式 UI (Generative UI): 这是本次更新最大的亮点。以前你问 AI 旅游攻略,它只给你文字;现在 Gemini 3 能直接生成一个交互式界面。当你查询某个历史或艺术问题时,它能混合图形和文本,甚至实时构建微型应用程序。这不仅是回答问题,更是在 「生成体验」。
——Antigravity 编程工具: 这是谷歌面向开发者领域投放的一枚重磅炸弹。这个 「智能体优先」 的编码环境,能让 AI 自动完成软件编写、测试和部署。
——告别 「马屁精」:谷歌特意强调,Gemini 3 减少了 「阿谀奉承 (sycophancy)」。现在的原则是 「告诉你真相,而不是你想听到的话。」 这意味着 Gemini 3 在面对错误前提时,会有更强的批判性思维,而不是一味迎合用户。
——准确率和智能度提升: 谷歌称 Gemini 3 是其最智能的模型,能帮助用户将任何想法变成现实。在标准基准测试中,Gemini 3 的信息准确率达到了 72%。虽然数字在绝对值上看似不高,但在生成式 AI 领域无疑稳居前列。
2. 大 V 亲测:Gemini 三年练成 「博士级」 智能
沃顿商学院教授、AI 领域意见领袖伊桑·莫利克 (Ethan Mollick) 刚刚对 Gemini 3 进行了一番深度测评。
这一次,他没有堆砌枯燥的基准测试分数,而是用一个跨越三年的对比测试,展示了 AI 令人咋舌的进化速度:那个曾经只会陪你聊天的 AI,现在已经变成了能独立干活的 「数字同事」。
——从 「描述」 到 「创造」
三年前 ChatGPT 发布前夕,莫利克曾向早期 GPT-3 输入一个荒诞的提示词:「写一个关于糖果驱动的超光速飞船逃离水獭的故事」。那时候,AI 只能勉强写出一段连贯文字或一首蹩脚诗。
今天,面对同样的提示词,莫利克对 Gemini 3 提出了更高的要求:「用实际行动展示 AI 进步了多少。」
结果,Gemini 3 直接编写并生成了一个可交互、可试玩的网页游戏。在游戏里,你需要真正驾驶那艘糖果飞船去躲避水獭的追击。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克感叹:「2022 年的 AI 只能描述;2025 年,AI 已经可以编写引擎代码、设计界面,并让你亲自驾驶飞船。」
——全能助手 Antigravity
随 Gemini 3 一同发布的还有开发工具 Antigravity。很多人以为这只是给程序员用的,但在莫利克看来,这更像是一个通用的 「智能体工作台」。
他的核心理念在于:在计算机上做的任何事情,本质上都是代码。既然 AI 能搞定代码,它就能搞定一切——无论是处理 Excel、制作 PPT,还是分析本地文件。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克把电脑里存放过往所有文章的文件夹权限都交给了 Antigravity,并下达指令:「帮我把所有关于 AI 的预测整理成一个漂亮页面,并上网搜索验证哪些我说对了,哪些说错了。」
Gemini 3 的表现像极了一位靠谱的员工:
它读取文件,制定计划; 还会在计划生成后的关键节点停下来,等待莫利克的批准; 获得批准后,它自主上网搜索、编写代码、生成网页、甚至控制浏览器进行测试。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
莫利克发现,自己与 AI 的交互方式发生了本质变化:不再是用复杂提示词去 「引导」 对话,而是用自然语言去 「指挥」 队友干活。这种可控感和理解力是迈向智能体时代的关键一步。
——写出 「博士级」 论文
为了测试 Gemini 3 的智能极限,莫利克还祭出了终极考验:一套十年前的、格式混乱的、甚至包含损坏数据的旧科研文件。
他给出的指令非常模糊,类似于导师对博士生的要求:「理清这些数据结构」、「写一篇原创论文,要有深度的理论探讨,像给学术期刊投稿那样写」。
结果 Gemini 3 不仅修复了数据,还提出了原创的研究假设,甚至自己编写了一套自然语言处理 (NLP) 算法来衡量众筹项目的 「独特性」 指标,并完成了统计分析。最终,它交出了一篇 14 页的论文。
当然 Gemini 3 也有不完美的地方。就像一个刚读博的学生一样,它的某些统计方法需要修正,某些理论推导略显激进。但在莫利克给出修改意见后,它能迅速领会意思并大幅改进。
莫利克总结道:「如果我们将 『博士级智力』 定义为能像合格研究生那样干活,那么它的确是做到了。」
3. 风评炸锅:Gemini 3「真香」?
——数据派:智商爆表,但是 「昂贵话痨」
权威评测机构 Artificial Analysis 给出的结论喜忧参半,但总体偏向乐观:
· 智力超群: 在智能指数 (Intelligence Index) 测试中,Gemini 3 Pro Preview 拿下 73 分的高分,而同类模型的平均分仅为 42 分。这不仅仅是领先,更是断层式的碾压。
· 极速响应: 128 tokens/秒的生成速度,让 Gemini 3 在处理复杂任务时依然 「健步如飞」,远超行业平均水平 (56 tokens/秒)。
· 钱包预警: 强大的代价是昂贵。虽然输入价格适中,但输出价格高达 12 美元/1M tokens(平均水平为 8.40 美元)。而且,这还是个 「话痨」 模型:测试中它生成了 92M tokens,是平均水平 (27M) 的三倍多。
一句话总结:Gemini 3 聪明、反应快,但废话略多,且每一个字都很贵。
@aniruddhadak 则表示 「基准测试结果」 令人惊叹......「堪称智能体编码工作流的新基石。」
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
@deredleritt3r 也拿数据说话,认为 Gemini 3 在计算机操作方面更是形成了绝对碾压之势:「这是全能电脑特工要出炉的节奏」。
告别 「AI 味」!Gemini 3 初体验:性格直爽、智商断层,但这价格让我手抖
——体验派:没有 AI 味,碾压优势
随着 Gemini 3 和 Antigravity 的访问权限陆续开放,一众科技博主纷纷上手亲测并发表评论。
作为早期测试者的 @aditabrm 详细评估了 Gemini 3 的强项和局限,称其 「令人印象深刻」,并在发布当天分享了自己的详细测评。
行业观察家 @aagarwal1012 则认为,谷歌 Gemini 3 大幅拉高了同类产品的标准。
科技播客 @SciTechera 更是用一幅图凸显谷歌 Gemini 3 上线后相比于其他竞争对手的绝对优势。
对于每天都要和 AI 打交道的硬核玩家 @Matt Shumer 来说,Gemini 3 直接成了他的 「日常主力工具」(Daily Driver)。他发表的评测更为感性且聚焦于生产力:
· 写作进化: 创意写作终于 「像人」 了,告别了那种一眼假的 「AI 味」。Gemini 3 的行文逻辑连贯,节奏自然,性格也变得干练直接,不再有那些为了凑字数的客套开场白。
· 前端杀手: 这是最大的惊喜。@Matt Shumer 直言其前端能力 「极其出色」,设计细节、微交互、响应式布局,往往一次就能搞定。设计能力的跨度实现了巨大飞跃。
——冷静派:也并不是所有用户都买账。
回到产品本身,谷歌自豪地宣称 Gemini 3 的信息准确率达到了 72%。对于大模型来说,这是一个了不起的数字。但在部分用户眼中,这可能还不够。
初创公司 Oumi 联合创始人 Manos Koukoumidis 直言不讳:「如果人们指望谷歌把他们从 『蓝色链接』 的海洋中拯救出来,并替他们完成工作,目前的水平还远远不够。」
与搜索引擎深度整合后,Gemini 3 能检索信息、验证事实,但 「幻觉」 依然存在。用户期待的是 100% 的可靠性,而 72% 意味着仍有近三成的概率会 「一本正经地胡说八道」。
Gemini 3 正式上线后不久,就有用户在社交平台 X 发文泼了一盆冷水,说虽然它会像 「资深工程师一样声称自己 『搞定』 了,但用户还是要检查」,与其他模型一样存在易出错、半途而废的问题。
还有用户在体验 Gemini 3 预览版时认为有时还不如 2.5 Pro,比如对比二者生成 「鹈鹕骑自行车」 的图片,前者并没有明显优势。
@Matt Shumer 也提到了 Antigravity 的两面性:谷歌新推出的 IDE 虽然强大,但仍需人类进行 「保姆级」 看护,以捕捉模型遗漏的错误。
4. 战局观察:OpenAI 罕见沉默,友商紧急 「抱团」
评价一个模型的强弱,别看它说什么,要看它的对手在做什么。
硅谷观察家约翰·库根 (John Coogan) 用这样一个更有趣的视角来解读 Gemini 3。
——Anthropic 在找靠山。就在谷歌放大招的同时,Anthropic 迅速靠拢微软,达成 300 亿美元的算力合作,并拿到了英伟达和微软的巨额投资。这种 「抱团取暖」 的防御姿态,恰恰印证了谷歌带来的压迫感。
——OpenAI 异常安静。以前最喜欢在谷歌发布会前搞 「截胡」 的 OpenAI,这次却显得格外沉默,仅发布了一些群聊功能和广告业务相关的动作。公司 CEO 萨姆·奥特曼 (Sam Altman) 倒是不忘在 X 平台上对谷歌表示祝贺。谷歌 CEO 桑德尔·皮查伊 (Sundar Pichai) 也作出回应。
——xAI 的焦虑。马斯克麾下的 xAI 则选择了简单粗暴的 「硬刚」,发布会前后在 X 平台上疯狂投放 Grok 的广告,让人不免猜测是否在试图抢夺谷歌的关注度。
5. 结语:技术狂欢背后仍需冷静
根据麦肯锡的数据,到 2030 年,整个 AI 行业预计将花费近 7 万亿美元来建设数据中心和超级计算机。
这是一个天文数字。
对于 Gemini 3 的发布,研究机构 Creative Strategies 首席分析师本·巴贾林 (Ben Bajarin) 颇为冷静:「我们需要真正有能力、高质量的用例,才能看到收入产生实质性流转。但我们现在还没到那一步。」
目前 AI 主要还是用于传统的搜索查询和辅助编程。投资人开始质疑:Anthropic、OpenAI 甚至谷歌,真的能产生足够的销售额来覆盖这万亿美元级别的基建投入吗?
对此,谷歌 DeepMind CEO 戴密斯·哈萨比斯 (Demis Hassabis) 显得颇为淡定。他在 Gemini 3 上线前接受采访时表示,虽然私募市场可能存在泡沫,但谷歌拥有真正的收入引擎。公司云业务季度销售额增长三分之一,达到 150 亿美元。他形容谷歌的状态是 「全情投入 (Locked in)」,并对最终胜出充满信心。(辰辰)
