大型语言模型(LLM)对于编程和机器人任务越来越有用,但对于更复杂的推理问题,这些系统和人类之间的差距越来越大。如果没有像人类一样学习新概念的能力,这些系统就无法形成良好的抽象——本质上是跳过不太重要的细节的复杂概念的高级表示——因此当被要求执行更复杂的任务时就会表现不佳。
幸运的是,麻省理工学院计算机科学与人工智能实验室(AIL)的研究人员在自然语言中发现了一个抽象宝库。在本月召开的国际学习表征会议上发表的三篇论文中,该小组展示了我们的日常用语如何成为语言模型的丰富上下文来源,帮助他们为代码合成、人工智能规划和机器人导航构建更好的总体表征。操纵。所有三篇论文也可在arXiv预印本服务器上获取。
这三个独立的框架为其给定的任务构建抽象库:LILO(从语言观察中归纳库)可以合成、压缩和记录代码;Ada(动作域获取)探索人工智能代理的顺序决策;LGA(语言引导抽象)可以帮助机器人更好地了解其环境,从而制定更可行的计划。每个系统都是一种神经符号方法,是一种融合了类人神经网络和类程序逻辑组件的人工智能。
LILO:编码的神经符号框架
大型语言模型可用于快速编写小规模编码任务的解决方案,但尚无法像人类软件工程师编写的那样构建整个软件库。为了进一步提高软件开发能力,人工智能模型需要将代码重构(削减和组合)为简洁、可读和可重用的程序库。
像之前开发的MIT主导的Stitch算法这样的重构工具可以自动识别抽象,因此,为了向迪士尼电影《Lilo&Stitch》致敬,AIL研究人员将这些算法重构方法与法学硕士结合起来。他们的神经符号方法LILO使用标准的LLM来编写代码,然后将其与Stitch配对以查找在库中全面记录的抽象。
LILO对自然语言的独特重视使系统能够执行需要类人常识知识的任务,例如识别并删除一串代码中的所有元音以及绘制雪花。在这两种情况下,AIL系统的性能都优于独立的法学硕士以及麻省理工学院之前名为DreamCoder的图书馆学习算法,这表明它有能力对提示中的单词建立更深入的理解。
这些令人鼓舞的结果表明LILO可以帮助编写程序来操作Excel电子表格等文档、帮助AI回答有关视觉效果的问题以及绘制2D图形。
“语言模型更喜欢使用以自然语言命名的函数,”麻省理工学院博士GabeGrand说。电气工程和计算机科学专业的学生,AIL附属机构,也是该研究的主要作者。“我们的工作为语言模型创建了更直接的抽象,并为每个模型分配了自然语言名称和文档,从而为程序员提供了更易于解释的代码并提高了系统性能。”
当提示执行编程任务时,LILO首先使用LLM根据训练数据快速提出解决方案,然后系统慢慢地更详尽地搜索外部解决方案。接下来,Stitch有效地识别代码中的常见结构并提取有用的抽象。然后,LILO会自动命名和记录这些程序,从而生成简化的程序,系统可以使用这些程序来解决更复杂的任务。
MIT框架使用特定领域的编程语言编写程序,例如Logo,这是MIT在20世纪70年代开发的一种语言,用于教孩子们编程。扩展自动重构算法以处理更通用的编程语言(例如Python)将是未来研究的重点。尽管如此,他们的工作仍然代表着语言模型如何促进日益复杂的编码活动向前迈出了一步。
Ada:自然语言指导人工智能任务规划
就像编程一样,在家庭中自动执行多步骤任务的人工智能模型和基于命令的视频游戏缺乏抽象。想象一下,您正在做早餐,并要求您的室友将热鸡蛋端到餐桌上,他们会直观地将有关厨房烹饪的背景知识抽象为一系列动作。相比之下,接受过类似信息培训的法学硕士仍然很难推理出制定灵活计划所需的内容。
AIL主导的“Ada”框架以著名数学家AdaLovelace(许多人认为她是世界上第一位程序员)的名字命名,通过开发虚拟厨房杂务和游戏的有用计划库,在这个问题上取得了进展。该方法对潜在任务及其自然语言描述进行训练,然后语言模型从该数据集中提出动作抽象。操作员对最佳计划进行评分并过滤到库中,以便可以将最佳可能的操作实施到不同任务的分层计划中。
“传统上,大型语言模型由于抽象推理等问题而难以处理更复杂的任务,”Ada首席研究员LioWong说,他是麻省理工学院脑与认知科学研究生、AIL附属机构和LILO合著者。“但我们可以将软件工程师和机器人专家使用的工具与法学硕士结合起来解决难题,例如虚拟环境中的决策。”
当研究人员将广泛使用的大型语言模型GPT-4合并到Ada中时,系统在厨房模拟器和迷你Minecraft中完成的任务比AI决策基准“代码即策略”还要多。艾达利用隐藏在自然语言中的背景信息来了解如何将冰镇葡萄酒放入橱柜中并制作一张床。结果表明,任务准确率分别提高了59%和89%。
凭借这一成功,研究人员希望将他们的工作推广到现实世界的家庭中,希望Ada能够协助完成其他家务并帮助厨房中的多个机器人。目前,其主要限制是它使用通用的LLM,因此AIL团队希望应用更强大、经过微调的语言模型,以帮助进行更广泛的规划。Wong和她的同事还在考虑将Ada与AIL中的机器人操作框架相结合:LGA(语言引导抽象)。
语言引导的抽象:机器人任务的表示
麻省理工学院电气工程和计算机科学专业研究生、AIL附属机构AndiPeng和她的合著者设计了一种方法,帮助机器更像人类一样解读周围环境,在工厂或厨房等复杂环境中剔除不必要的细节。就像LILO和Ada一样,LGA新颖地关注自然语言如何引导我们获得更好的抽象。
在这些更加非结构化的环境中,机器人需要一些关于其任务的常识,即使事先进行了基本培训。例如,让机器人递给你一个碗,机器需要大致了解周围环境中哪些特征是重要的。从那里,它可以推理出如何为您提供您想要的物品。
在LGA的例子中,人类首先提供一个预先训练的语言模型,其中包含使用自然语言的一般任务描述,例如“把我的帽子拿给我”。然后,模型将此信息转换为执行此任务所需的基本元素的抽象。最后,经过一些演示训练的模仿策略可以实现这些抽象,以指导机器人抓取所需的物品。
以前的工作需要一个人对不同的操作任务进行大量记录来预训练机器人,这可能会很昂贵。值得注意的是,LGA指导语言模型生成类似于人类注释者的抽象,但时间更短。
为了说明这一点,LGA制定了机器人策略来帮助波士顿动力公司的Spot四足机器人捡起水果并将饮料扔进回收箱。这些实验展示了麻省理工学院开发的方法如何扫描世界并在非结构化环境中制定有效的计划,从而有可能指导道路上的自动驾驶汽车以及工厂和厨房中工作的机器人。
“在机器人技术中,我们经常忽视的一个事实是,我们需要在多大程度上完善我们的数据,才能使机器人在现实世界中发挥作用,”彭说。“除了简单地记住图像中的内容以训练机器人执行任务之外,我们还希望将计算机视觉和字幕模型与语言结合起来。通过根据机器人所看到的内容生成文本字幕,我们表明语言模型本质上可以构建重要的世界知识对于一个机器人来说。”
LGA面临的挑战是某些行为无法用语言解释,从而导致某些任务未指定。为了扩展它们在环境中表示特征的方式,彭和她的同事正在考虑将多模式可视化界面纳入他们的工作中。与此同时,LGA为机器人提供了一种在向人类伸出援助之手时更好地感知周围环境的方法。
人工智能的“令人兴奋的前沿”
“图书馆学习代表了人工智能中最令人兴奋的前沿之一,它提供了一条发现和推理组合抽象的途径,”威斯康星大学麦迪逊分校助理教授罗伯特霍金斯说,他没有参与这些论文。Hawkins指出,之前探索这个主题的技术“计算成本太高,无法大规模使用”,并且它们生成的lambda(用于描述许多语言中的新函数的关键字)存在问题。
“它们往往会产生不透明的&luo;lambda沙拉&ruo;,即大量难以解释的函数。最近的这些论文通过将大型语言模型置于具有符号搜索、压缩和规划算法的交互式循环中,展示了一种令人信服的前进方式。这项工作能够快速获取更具可解释性和适应性的库来完成手头的任务。”
通过使用自然语言构建高质量代码抽象库,这三种神经符号方法使语言模型更容易解决未来更复杂的问题和环境。对提示中的精确关键字的更深入理解为开发更类似于人类的人工智能模型提供了一条前进的道路。