康奈尔大学、华盛顿大学和艾伦人工智能研究所的人工智能研究人员和计算机科学家团队开发了一款名为 WILDHALLUCINATIONS 的基准测试工具,用于评估多个大型语言模型 (LLM) 的真实性。该团队在arXiv预印本服务器上发表了一篇论文,描述了创建该工具时考虑的因素。
ChatGPT 等法学硕士课程已经变得很流行——人们用它们来写信、写诗、写歌、写研究论文和其他文本文档。但随着时间的推移,它们的缺陷也变得相当明显——法学硕士课程经常做出不准确的陈述。如果这些错误与现实相差太远,就会被称为幻觉。
研究团队指出,法学硕士产生幻觉的主要原因在于用于训练它们的数据质量——通常是来自互联网的大量文本。因此,在特定的、高度准确的数据集上训练的模型更有可能提供准确的信息。
研究团队指出,许多法学硕士的制定者一直在宣称其模型经过了修订,通常暗示这些模型产生幻觉的次数更少,这意味着它们更加准确。但研究人员还指出,到目前为止,用户无法验证这些说法是否属实。为了进行这项新研究,该团队创建了一个工具来帮助用户社区评估一些最受欢迎的法学硕士的准确性。
该基准测试工具名为 WILDHALLUCINATIONS,它促使多位法学硕士生成用户生成的聊天机器人对话的输出。然后,它会对答案进行事实核查。研究团队注意到,许多聊天机器人的答案都来自维基百科页面上提供的信息,因此确保记录下在维基百科上可以找到的信息和在维基百科上找不到的信息的查询答案之间的差异。
为了测试他们的基准测试工具,研究人员用它来评估了几种最受欢迎的法学硕士课程,其中许多课程最近进行了更新。他们发现法学硕士课程的制定者在提高准确性方面没有取得很大进展。大多数课程的准确性并不比以前的版本高。
该团队还发现,当模型能够从一个或多个 Wiki 页面中提取信息时,它们的表现会更好。法学硕士在某些科目上的表现也比其他科目更好。例如,他们在寻找有关名人和财务问题的可靠信息时遇到了麻烦。当被问及某些类型的科学问题时,他们的可靠性更高。