作者:
徐剑
在科幻电影中,人工智能常被塑造成全知全能的 「超级大脑」,但现实中,AI 却时常表现为 「自信的谎言家」。比如,请 AI 描述 「关公战秦琼」,它不仅能 「叙述」 虚构的故事情节,还会 「猜测」 用户喜好,煞有介事地编造不存在的文献档案。这种现象被称为 「AI 幻觉」,已经成为困扰许多人工智能企业和使用者的现实难题。
AI 为什么会一本正经地胡说八道?根源在于其思维方式与人类存在本质不同。今天人们日常使用和接触最多的 AI 大模型本质上是一个庞大的语言概率预测和生成模型。它通过分析互联网上数以万亿计的文本,学习词语之间的关联规律,再像玩猜词游戏一样,逐字逐句生成看似合理的回答。这种机制使 AI 擅于模仿人类的语言风格,但有时缺乏辨别真伪的能力。
AI 幻觉的产生与大模型训练的过程密不可分。AI 的知识体系基本来源于训练时 「吞下」 的数据源。来自互联网的各类信息鱼龙混杂,其中不乏虚假信息、虚构故事和偏见性观点。这些信息一旦成为 AI 训练的数据源,就会出现数据源污染。当某个领域专业数据不足时,AI 便可能通过模糊性的统计规律来 「填补空白」。比如,将科幻小说中的 「黑科技」 描述为真实存在的技术。在 AI 被越来越多地用于信息生产的背景下,AI 生成的海量虚构内容和错误信息正在进入训练下一代 AI 的内容池,这种 「套娃」 生态将进一步加剧 AI 幻觉的产生。
在大模型训练过程中,为了使 AI 生成满足用户需求的内容,训练者会设置一定的奖励机制——对于数学题等需要逻辑推理的问题,往往通过确认答案的正确与否给予奖励;对于写作等开放式命题,则需要判断其生成的内容是否符合人类写作习惯。为了训练效率,这种判断更多关注 AI 语言的逻辑性和内容格式等指标,却忽略了事实的核查。
此外,训练过程的缺陷也会导致 AI 存在 「讨好」 用户的倾向,明知道答案不符合事实,也愿意遵照指令生成迎合用户的内容,并编造一些虚假的例证或看似科学的术语来支撑自己的 「假说」。这种 「角色扮演式」 的表达让许多普通用户难以分辨 AI 幻觉。上海交通大学媒体与传播学院进行的一项全国抽样调查显示,约七成受访者对大模型生成虚假或错误信息的风险缺乏清晰认知。
如何破解 AI 幻觉?开发者尝试通过技术手段为 AI「纠偏」。比如 「检索增强生成」 技术,这意味着 AI 在回答前需要从最新的数据库检索相关信息,降低 「信口开河」 概率;一些模型被要求在不确定答案时主动承认 「不知道」,而非强行编造答案。不过,由于目前的 AI 无法像人类那样理解语言背后的真实世界,因此这些方法难以从根本上解决 AI 幻觉问题。
应对 AI 幻觉,不仅需要技术规制,也需要从公民 AI 素养普及、平台责任、公共传播等维度构建系统性的 「幻觉免疫力」。AI 素养不仅包含使用 AI 的基本技能,更重要的是对 AI 幻觉要有基本的认知能力。明确技术平台的责任边界同样重要,AI 产品在设计时就应嵌入风险提示机制,自动标记 「可能存在事实性错误」 等警示内容,并提供方便用户进行事实核查和交叉验证的功能。媒体可以通过定期发布 AI 伪造事实的典型案例,进一步培养公众的识别能力。通过多方联手,智能时代的认知迷雾才能被真正破除。
(作者为上海交通大学媒体与传播学院特聘教授,本报记者黄晓慧采访整理)
(人民日报)
文章转载自东方财富