一个由心理学家和神经生物学家组成的国际团队通过实验发现,两种类型的法学硕士在心理理论测试中能够等于或超越人类。在《自然人类行为》杂志上发表的研究中,该小组对志愿者进行了心理理论测试,并将平均结果与两类法学硕士的平均结果进行了比较。
在过去的几年里,诸如ChatGPT之类的大型语言模型(LLM)已经得到了改进,现在已经可供公众普遍使用。他们的能力也在稳步增长。一项新能力是推断情绪——隐藏的含义或人类用户的心理状态。
在这项新研究中,研究小组想知道法学硕士的能力是否已经进步到可以与人类同等地执行心理理论任务的程度。
心理理论任务是由心理学家设计的,用于测量一个人在社交互动过程中的心理和/或情绪状态。先前的研究表明,人类使用各种线索向他人传达自己的心理状态,目的是传达不具体的信息。
先前的研究还表明,人类擅长捕捉此类线索,但其他动物则不然。许多业内人士认为计算机不可能通过此类测试。研究小组测试了几位法学硕士,看看他们与参加相同测试的一群人相比效果如何。
研究人员分析了1,907名接受标准心理理论测试的志愿者的数据,并将结果与Llama2-70b和GPT-4等多个法学硕士的结果进行了比较。两组人都回答了五种类型的问题,每种问题都旨在衡量失礼、讽刺或陈述的真实性等问题。每个人还被要求回答经常向儿童提出的“错误信念”问题。
研究人员发现,法学硕士的表现通常与人类相当,有时甚至更好。更具体地说,他们发现GPT-4在五种主要类型的任务中是最好的,而Llama-2的分数在某些情况下比其他类型的LLM或人类差得多,但在其他一些类型上要好得多的问题。
研究人员表示,实验表明,法学硕士目前能够在心理理论测试中与人类相媲美,尽管他们并不表明此类模型与人类一样聪明或更聪明,或者总体上更直观。