即使是最好的人工智能大型语言模型(LLM)在处理简单的逻辑问题时也会失败。这是来自于利希超级计算中心(JSC)、布里斯托尔大学电气与电子工程学院和LAION人工智能实验室的研究人员得出的结论。
在他们发布到arXiv预印本服务器的题为“爱丽丝梦游仙境:简单任务显示最先进的大型语言模型的推理能力彻底崩溃”的论文中,科学家们证实了经过测试的最先进的LLM存在“功能和推理能力的急剧崩溃”,并指出尽管语言模型具有执行基本推理的潜在能力,但它们无法稳健而一致地访问这种能力。
这项研究的作者MariannaNezhurina、LuciaCipolina-Kun、MehdiCherti和JeniaJitsev呼吁“科学技术界应立即重新评估当前法学硕士所宣称的能力。”他们还呼吁制定标准化基准,以发现与基本推理能力相关的语言模型的弱点,因为目前的测试显然未能揭示这一严重缺陷。
正确推理的关键
论文中称为“AIW问题”的“常识任务”其实很简单:“爱丽丝有N个兄弟,还有M个姐妹。爱丽丝的兄弟有多少个姐妹?”N和M的值(始终为自然数)以及兄弟和姐妹的顺序各不相同。因此,研究人员使用了各种数字和提示类型的组合,以便准确了解不同模型在系统性AIW问题变化下的表现。
无论变化如何,问题结构保持不变,正确答案始终是Alice和她的姐妹(M+1)相加的结果。大多数小学生已经可以理解这种逻辑。另一方面,语言模型只能偶尔解决AIW问题。以下是LLM遇到最简单版本问题的示例:
“爱丽丝有四个兄弟和一个姐妹。爱丽丝的兄弟有几个姐妹?”——“一个经典的横向思维难题——让我们仔细看看:爱丽丝有四个兄弟。爱丽丝还有一个姐妹(她自己)。所以爱丽丝的每个兄弟都有......(鼓声)......一个姐妹,那就是爱丽丝自己。所以答案是:爱丽丝的每个兄弟都有一个姐妹。”
这听起来似乎很有道理,但仍然是错的(当然,爱丽丝的兄弟有两个姐妹)。其他经过测试的语言人工智能也会遇到麻烦——根据问题的不同,麻烦可能很大。有时它们会陷入荒谬的推理中,反复得出错误的结果并宣称它们是“正确的”。
因此,问题不仅在于错误的结果,还在于人工智能使用伪理性论据来支持它们。即使研究人员采取干预措施鼓励他们批判性地审查他们的答案也无济于事。
因此,研究人员评估道,“模型也对其错误的解决方案表现出强烈的过度自信,同时提供通常毫无意义的&luo;推理&ruo;式的解释……来证明并支持其明显失败的回应的有效性,使它们听起来似乎合理。”
每秒回答错误次数超过
总体而言,LLM的平均正确响应率远低于50%,较大模型的表现通常明显优于较小模型(例如,GPT-4o的正确响应率略高于60%),这再次强调了较大规模的优势——但对于具有强大基本推理能力的模型来说,最大规模的模型的表现也不够好。
具体而言,即使在AIW问题发生轻微变化时也会出现非常强烈的波动,这清楚地表明模型不具备稳健的基本推理能力,因此即使在面对与提供正确解决方案无关的微小问题变化时也会感到困惑。
更难的版本问题(“AIW+问题”)最终将所有模型的推理能力推到了极限。研究人员表示,许多接受测试的模型在旨在测试各种能力(包括推理能力)的各种标准化基准测试中也取得了非常高的分数,但在非常简单的AIW问题上却失败了。
因此,科学家在论文中指出,这些基准并不能正确反映这些模型基本推理中的缺陷,同时也质疑当前标准化基准用于模型比较的用途。
测试台上的语言模型
虽然这篇论文尚未经过同行评审,但其研究结果已引起轰动。法学硕士到底有多厉害?如果法学硕士在小学水平的任务上失败,这对法学硕士的使用意味着什么?合著者Jitsev(JSC)表示:“我们的论文引起了大量讨论和询问。”科学家的研究结果对许多事情提出了质疑——并使得对语言模型能力的进一步研究绝对必要。
Jitsev表示:“我们的论文为语言模型通过遵循正确的基本推理得出正确结论的实际能力提供了极其重要的新见解——这里需要进一步的后续研究,以了解当前模型中的基本推理如何以及为何会在这些简单的问题上失效。”