来源:
财联社
据当地时间周四的最新爆料,人工智能初创企业 OpenAI 计划在 2026 年初推出一款新的音频人工智能模型,为备受期待的首款 AI 硬件提前做好准备。
而结合最新爆料和过往消息,这款设备大概率会是一款以语音交互为主的产品。
问题在于,哪怕是 OpenAI,也对让人们 「放下手机」,并习惯对着一个没有屏幕的金属块说话缺乏底气。
据知情人士透露,过去两个月里,OpenAI 集结多个工程、产品和研究团队,努力攻关音频 AI 模型。需要说明的是,目前驱动 ChatGPT 语音聊天功能的模型,与提供文本回复的模型并不是同一款。OpenAI 内部也认为,现在的语音模型在回答准确度和速度方面都已经落后于当前版本。
据悉,加强后的语音模型计划于 2026 年第一季度推出。知情人士表示,通过一种新的音频模型架构,ChatGPT 生成的对话听起来更自然、更富情感,并能提供更准确、更深入的答案。该模型还能与人类 「同时说话」,并能更好地处理对话中的打断场景,这都是当前模型无法做到的。
因此,即便 OpenAI 的新硬件可能要到今年底或明年初才正式发布,但投资者在未来几个月里,就有机会判断底层技术是否已经足以颠覆消费电子硬件的底层逻辑。
据悉,在去年夏天的一次内部演示中,参与设备研发的 OpenAI 员工表示,该设备将更像一个伴侣,与用户并肩工作,主动提出建议以帮助用户实现目标,而不是仅仅作为通往应用程序和其他软件的简单通道。在用户允许的情况下,设备将通过音频和视频获取有关周围环境及用户本人的信息。
作为硅谷的某种产品思潮,谷歌、亚马逊、Meta 和 OpenAI 等正在开发新型 AI 硬件和可穿戴设备的一些研究人员认为,像 iPhone 这样的设备未必是使用 AI 的最优解。许多 OpenAI 的研究人员也认为,对话是与 AI 互动最自然的方式,因为人与人之间也是主要通过语音互相交流。
这一动向也含有幕后关键人 「赎罪」 心态的影响。目前正在与 OpenAI 合作开发 AI 硬件的前苹果公司设计大师乔尼·艾维,一直在为自己当年设计出 iPhone,导致现在全球无数人玩手机成瘾而感到愧疚。
今年 5 月,艾维曾公开表示:「我认为,即便你的初衷是无辜的,但如果参与了会产生不良后果的事,你就需要承担责任。」
因此,OpenAI 即将推出的音频模型,也肩负着调整人们使用电子设备习惯的严峻挑战。
OpenAI 目前面临最大难题,是用户根本就不会与 ChatGPT 进行语音聊天。要想打造以音频为主的 AI 设备,OpenAI 首先必须让消费者习惯于对着 ChatGPT 等 AI 产品大声说话。
知情人士透露,目前在 OpenAI 推动音频 AI 工作的核心人物是 Kundan Kumar,这位研究人员去年夏天从 Character.AI 被挖来负责这项工作。其他负责人还有产品研究主管 Ben Newhouse,以及 ChatGPT 多模态功能的产品经理 Jackie Shannon。

(财联社)
文章转载自东方财富


