大语言模型会「读心」吗？

文 | 追问 nextquestion

请想象这样一个场景。你坐在公交车上靠窗的位置，这时你的朋友突然对你说：「今天好像有点热」。你会怎么回应？大多数人的做法应该是立即打开窗户，因为他们巧妙地理解了朋友的言外之意：他是在礼貌地请求自己打开窗户，而不是单纯因为无聊而谈论天气。

学界一般会使用「心智化」（mentalizing）或「读心」（mind-reading）来描述这样一种察觉并归因人类心理状态的能力，这种能力使得人们可以解释并预测自己或他人的行为，对于人们进行社会互动、适应复杂的社会环境至关重要。

过去人们认为，「读心」是人类所独有的能力，因为只有人类才具有「心智理论」（theory of mind）。这可不是什么高深莫测的学术理论，而是指一组隐含于人类知识系统的常识或信念，描述了人们日常生活中的行为、环境和相关心理状态之间的因果关系 ^[1]。所以，正因为人们掌握了心智理论，他们便可以根据这些知识去理解上述情景中「朋友要求开窗」这一间接请求，并做出相应的回应。

大语言模型（large language model, LLM）应用日益广泛，以 GPT 为代表的生成式大语言模型已经在基本的认知任务和复杂的决策和推理任务上展现出了和人类相当、乃至优于人类的表现 ^[2][3]。在这个背景下，通过人工智能来实现「人工心智理论」（artificial theory of mind）可能也不再遥远。近日，有研究团队通过比较人类被试和 3 种大语言模型在系列心智理论任务上的表现，发现大语言模型所表现出的「读心」能力并不比人类被试差^[4]。相关研究结果发表在《自然-人类行为》。

▷原始论文：Strachan, et al. " Testing theory of mind in large language models and humans." Nature Human Behavior (2024). https://doi.org/10.1038/s41562-024-01882-z

如何量化心智理论能力？

心智理论听上去其实还是比较抽象的，那有没有办法去量化地测量或评估一个人或一个人工智能的心智理论呢？得益于生成式大语言模型理解和生成自然语言的优秀能力，目前广泛用于评估人类被试心智理论能力的各种测试都可以直接用于这些大语言模型，诸如理解反讽或间接请求、推断错误信念以及识别无意的失礼行为等。在这项研究中，研究者通过 5 项测试，对人类被试（总样本量为 1907）和 3 种生成式大语言模型（GPT-4、GPT-3.5、LLaMA2*）的心智理论能力进行了系统评估。

*作者注：GPT-3.5 和 GPT-4 是 OpenAI 开发的大语言模型，它们利用深度学习技术生成自然语言文本，其中 GPT-4 相较于 GPT-3.5 使用了更广泛和更现代的训练数据集，知识覆盖面更广泛，并且有更多的参数和更复杂的架构，使前者较后者有更强的语言理解和生成能力。LLaMA2 是由 Meta 开发的大语言模型，其原理和 GPT 系列大模型类似，在该研究中考虑的关键区别在于 LLaMA2 提供了一定程度的开源访问，这使得研究人员和开发者能够对模型进行研究和改进。

（1）错误信念推断（False belief）

错误信念推断任务评估的是受测试对象推断他人所拥有的信念与自己秉持的真实信念不同的能力。这类测试的项目有着特定的叙述结构：角色 A 和角色 B 在一起时，角色 A 把一件物品放在一个隐藏的地方（例如一个盒子）；角色 A 离开后，角色 B 把物品移到第二个隐藏的地方（例如地毯下面）；然后角色 A 返回寻找物品。此时，向受测试对象提出的问题是：当角色 A 回来时，他会在新的位置（物品真正所在的位置，符合真实信念）还是在旧的位置（物品原来所在的位置，符合角色 A 的错误想法）寻找物品？

（2）反讽理解（Irony）

反讽理解任务评估的是受测试对象理解特定语境下话语真实含义和说话人真实态度（讽刺、嘲笑等）的能力。在该研究中，研究者给受测试对象提供了一个包含反讽或不包含反讽的小故事，要求被试在阅读完后对故事中的相关话语进行解释。

（3）识别失礼行为（Faux pas）

这一任务评估的是受测试对象能否识别对话情景中的某人因为不知道某些信息而说出的可能冒犯对方的话。在该研究中，研究者向受测试对象提供了几个这样的情境，要求被试阅读后回答相关的问题。只有 4 个问题全部回答正确才能算一次正确的理解，其中有 3 个问题与心智理论密切相关，分别是「是否有人说了不该说的话（答案总为是）」、「他说了什么不该说的话」和「他知道这话会冒犯别人吗（答案总为否）」。

这一任务评估的是受测试对象理解社会互动中他人间接请求的能力，正如本文开始给出的例子那样。在该研究中，研究者向受测试对象呈现了几个描述日常社交互动的情境，每段描述均以一句可理解的暗示来结尾，要求被试阅读完后说出他对最后一句暗示语句的理解。正确的回答是既能指出这句话的本意，也能指出这句话所隐含的行为意图，即间接请求。

（5）奇怪故事理解（Strange stories）

这一任务主要评估的是受测试对象更高级的心智理论能力，比如识别并推理情境中的误导、谎言或误会，以及二阶或高阶的错误信念推断（即判断甲是否知道乙相信某事为错误信念）。在该研究中，研究者向受测试对象呈现了几个看似奇怪的小故事，并要求被试阅读后解释为什么故事中的人物会说或做一些字面上不真实的事情。

需要特别指出的是，除了反讽理解测试外，其余所有测试都是从可开放获取的数据库或公开发表的学术期刊中获取。为了确保大语言模型在应对这些问题时不仅仅是对训练集数据的复制（因为这些大语言模型在进行预训练时，就处理过大量的文本数据，来学习自然语言的深层结构和含义），研究者为每个大语言模型可能学习过的任务都额外编写了新的测试项目。这些新项目与原始项目的逻辑一致，但使用了不同的语义内容。研究者收集了受测试对象在这些任务中的回答，并根据经过操作性定义的编码方案对答案的文本进行了精细且可靠的编码，这样就能对人类被试和大语言模型的心智理论能力进行量化评估了。那么和人类相比，大语言模型在这些任务上的表现究竟如何呢？

大语言模型能够「读心」吗？

下面这张结果图直观展现了人类被试和大语言模型在各项任务上的表现以及他们之间的差异。其中图 1A 是受测试对象在所有测试项目上的表现（黑点代表样本的得分中位数），图 1B 则分别展示了受测试对象在原始项目（深色圆点）和新项目（浅色原点）上的表现。

▷图 1 人类被试和大语言模型在心智理论测试上的表现

结果表明，GPT-3.5 在错误信念推断和暗示理解任务中的表现和人类被试水平相当，但在其他任务中并没有任何优势；GPT-4 除了在错误信念任务和暗示理解任务中表现出与人类被试相当的水平外，在反讽理解和奇怪故事理解任务中的表现甚至超过了人类被试，但在识别失礼任务中的表现差强人意；LLaMA2 在错误信念推断任务中同样表现优秀，在反讽理解、暗示理解和奇怪故事理解任务中的表现都不如 GPT-4 和人类被试，但是在识别失礼任务中的表现异常优秀。

对结果的解释

有趣的结果似乎出现在识别失礼的任务中，其中 GPT 的糟糕表现和之前相关研究的发现一致 ^[5]。但令人惊讶的是在其他任务上表现差劲的 LLaMA2 在该任务上表现优秀，除了一个项目外，LLaMA2 在该项测试的其他项目上都给出了近乎完美的答案。为了进一步探讨产生这样结果的原因，研究者进行了更细致的分析。

前文已经介绍了失礼识别测试的一般结构，这里研究者给出一个更具体的例子。如图所示，在受测试对象阅读完该故事后，需要回答 4 个问题。第一个问题是「在故事中，某人是否说了不该说的话」，正确答案总为是；第二个问题要求被测试对象报告谁说了什么不该说的话；第三个问题是一个关于故事内容理解的问题；第四个问题是关键问题，与说话者说出失礼话语时的心理状态相关，在这个例子中是：「丽莎知道窗帘是新的吗？」这个问题的答案总为否。只有全部正确回答 4 个问题，这次测试才能被编码为一次正确反应。

▷图 2 失礼识别测试中的故事示例，中文翻译为作者所加。

对 GPT 的回答细致考察发现，GPT-4 和 GPT-3.5 都能正确指出受害者会感到被冒犯，有时甚至还能提供更多细节，说明为什么相关言语会引起冒犯。但当被推断说话者说出冒犯言语时的心理状态时（例如「丽莎知道窗帘是新的吗？」），他们无法正确回答。如图 3 所示，在这一问题下，GPT 给出的回答大多都是故事没有提供足够的信息而无法确定。

▷图 3 失礼识别测试中的故事示例，中文翻译为作者所加。

在后续的进一步分析中，研究者采取了可能性估计的问法来对 GPT 进行提问，即不直接问「丽莎是否知道窗帘是新的」，而是问「相比于丽莎知道窗帘是新的，她不知道的可能性是否更大」。如图 4 所示，GPT-3.5 和 GPT-4 在该测试中都表现出强大的对他人心理状态的理解能力。由此，研究者推断 GPT 在进行回答时采取了「超保守策略」，即它能够成功推理说话人的心理状态，只是它不愿意在信息不足的情况下做出过于笃定的判断。

▷图 4 GPT 在失礼识别测试中对可能性估计问题回答情况示意图

在理解了 GPT 为何在原始的失礼识别测试中表现不佳后，研究者们又试图进一步追问为何 LLaMA2 独独在这项测试上表现优秀。研究者们认为，当大模型给出「否」的回答时，可能不是因为它真的知道答案是「否」，而是因为它无知，也就是无论什么情况，它都会给出「否」的答案。

为了测试这个假设，研究者有针对原始的失礼识别任务设计了一个变式，即在故事中添加了显示主人公可能知道他为何会冒犯的线索，或添加一句中性话语。如果受测试对象能够成功推断主人公心理状态，那么针对不同的题型，大模型将会有不同的回答模式，否则只能说明做出「否」的判断只是缘于其无知。如图 4 所示，结果显示，GPT 和人类被试都能够区分几种条件，而 LLaMA2 无法区分。这证实了研究者们的猜想，也就是在原始任务中，LLaMA2 其实无法对人物心理状态做出正确判断。

▷图 5 人类和大语言模型对失礼识别变式任务回答情况示意图

总的来说，在各项测试中，GPT-4 都表现出与人类被试相当乃至更优的心智理论能力。在失礼识别任务中，GPT 表现不佳的原因是对于回答采取了过于保守的策略，而 LLaMA2 的优秀表现可能是虚假的。

结语

这项研究系统评估并比较了人类与大语言模型在完成心智理论相关测试时的表现，并发现大语言模型在推断他人心理状态方面有时并不逊色于人类。并通过相关任务的变式，进一步检验了大语言模型表现背后的可能机制。这无疑展现出使用人工智能来理解人类心智的研究潜力。那么，我们能由此认为大语言模型也能「读心」吗？

有研究者指出，尽管大语言模型设计时被用来模拟类似人类的反应，但这并不意味着这种类比可以延伸到引起这些反应的基本认知过程 ^[6]。毕竟，人类的认知不是基于语言的，而是具身的、并嵌入环境的。人们在推断他人心理状态时可能受到的挑战，可能正是来源于其主观经验和社会文化环境的影响，而大语言模型则不会有此问题。也就是说，虽然大语言模型在模拟人类心智的表现上是十分出色的，但我们并不能完全通过其来理解人类的认知。

此外，我们需要对大语言模型表现出类似人类的行为进一步思考。在这项研究中，尽管 GPT 和人类被试在失礼识别任务中对主人公心理状态推断结果类似，但他们做出了非常不同的反应，其中 GPT 做出的决策极其保守。这些结果都暗示着能力和行为表现之间的区别。

研究者指出，当大语言模型与人类实时互动时，他们表现出的非人类行为决策对人类对话伙伴有何影响？这正是未来的研究方向之一。例如，GPT 由于保守做出的负面反应可能会导致人类对话伙伴的负面情绪，但这也可能会促进其对问题的好奇心。在动态展开的社会互动中，了解大语言模型在心智推断方面的表现（或其缺失）如何影响人类的社会认知是未来工作的一个挑战。

参考文献：

[1] Januszewski, Michal, Kornfeld, et al. High-precision automated reconstruction of neurons with flood-filling networks. Nat. Methods, 2018

[2] Dorkenwald, S., Li, P.H., Januszewski, M. et al. Multi-layered maps of neuropil with segmentation-guided contrastive learning, Nat. Methods, 2023

[3] https://google.github.io/tensorstore.

[4] Li, P. H., Lindsey, L. F., Januszewski, M., et al., Automated reconstruction of a serial-section EM Drosophila brain with flood-filling networks and local realignment, bioRxiv, 2019

[5] C. S. Xu, M. Januszewski, Z. Lu, S.-y. Takemura, K. J. Hayworth, G. Huang, et al., A Connectome of the Adult Drosophila Central Brain, bioRxiv, 2020

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28