“熟能生巧”这句话通常是用来形容人类的,但对于刚进入陌生环境的机器人来说,这也是一句很棒的格言。
想象一下,一个机器人来到一个仓库。它具备了它所接受的训练技能,比如放置物体,现在它需要从它不熟悉的货架上挑选物品。起初,机器很难做到这一点,因为它需要熟悉新的环境。为了改进,机器人需要了解它需要改进总体任务中的哪些技能,然后专门化(或参数化)该动作。
现场人员可以对机器人进行编程以优化其性能,但麻省理工学院计算机科学与人工智能实验室 (AIL) 和人工智能研究所的研究人员已经开发出一种更有效的替代方法。上个月在机器人:科学与系统会议上展示了他们的“估计、推断和定位”(EES) 算法,该算法使这些机器能够自行练习,有可能帮助它们提高在工厂、家庭和医院中执行有用任务的能力。
该研究发表在arXiv预印本服务器上。
评估形势
为了帮助机器人更好地完成诸如扫地之类的活动,EES 采用了视觉系统来定位和跟踪机器的周围环境。然后,该算法会估计机器人执行某个动作(如扫地)的可靠性以及是否值得进行更多练习。EES 会预测如果机器人改进了某项特定技能,机器人完成整个任务的能力会有多好,最后进行练习。随后,视觉系统会在每次尝试后检查该技能是否正确完成。
EES 可以在医院、工厂、家庭或咖啡店等场所派上用场。例如,如果你想让机器人打扫你的客厅,它需要练习扫地等技能。不过,根据 Nishanth Kumar SM '24 及其同事的说法,EES 可以在没有人工干预的情况下帮助机器人提高水平,只需进行几次练习即可。
“在开展这个项目之前,我们想知道这种专业化是否可以在真实机器人的合理数量的样本中实现,”描述这项工作的论文的共同主要作者、电气工程和计算机科学博士生兼 AIL 分支机构的库马尔 (Kumar) 说。
“现在,我们有了一种算法,可以让机器人通过数十或数百个数据点在合理的时间内显著提高特定技能,这比标准强化学习算法所需的数千或数百万个样本要好得多。”
参见点扫描
在人工智能研究所的研究试验中,波士顿动力公司的 Spot 四足机器人充分展现了 EES 高效学习的能力。该机器人背部装有一只手臂,经过几个小时的练习后,它便完成了操作任务。在一次演示中,该机器人在大约三个小时内学会了如何将球和环安全地放在倾斜的桌子上。
在另一个实验中,该算法引导机器在大约两小时内将玩具扫入垃圾箱。这两项结果似乎都比以前的框架有所提升,以前的框架每项任务可能需要 10 多个小时。
“我们的目标是让机器人收集自己的经验,这样它就可以更好地选择哪些策略在部署中会发挥良好的作用,”联合主要作者汤姆·西尔弗 (Tom Silver) SM '20、博士 '24 说道,他是电气工程和计算机科学 (EE) 校友和 AIL 成员,现在是普林斯顿大学的助理教授。
“通过关注机器人所知道的内容,我们试图回答一个关键问题:在机器人拥有的技能库中,哪一个技能是最有用的,值得现在练习?”
EES 最终可以帮助简化机器人在新部署环境中的自主练习,但目前它有一些局限性。首先,他们使用离地面较低的桌子,这让机器人更容易看到物体。
Kumar 和 Silver 还用 3D 打印了一个可连接的手柄,让 Spot 更容易抓住刷子。机器人没有检测到某些物品,并且将物体识别到了错误的位置,因此研究人员将这些错误算作失败。
给机器人布置家庭作业
研究人员指出,借助模拟器,物理实验的练习速度可以进一步加快。机器人最终可以将真实和虚拟练习结合起来,而不是单独练习每项技能。他们希望通过设计 EES 来克服研究人员遇到的成像延迟问题,从而让系统运行速度更快、延迟更少。未来,他们可能会研究一种算法,该算法可以推理一系列练习尝试,而不是规划要改进哪些技能。
佐治亚理工学院交互计算学院助理教授、NVIDIA AI 研究科学家 Danfei Xu 表示:“让机器人能够自主学习不仅非常有用,而且极具挑战性。”Danfei Xu 并未参与这项工作。
“未来,家用机器人将进入各行各业,并有望执行各种各样的任务。我们不可能事先对它们需要知道的一切进行编程,因此让它们在工作中学习至关重要。然而,让机器人在没有指导的情况下自由探索和学习可能会非常缓慢,并可能导致意想不到的后果。
“Silver 及其同事的研究引入了一种算法,允许机器人以结构化的方式自主练习技能。这是朝着创造能够不断发展和自我改进的家用机器人迈出的一大步。”
Silver 和 Kumar 的合著者包括人工智能研究所研究员 Stephen Proulx 和 Jennifer Barry,以及四名 AIL 成员:东北大学博士生兼客座研究员 Linfeng Zhao、麻省理工学院 EE 博士生 Willie McClinton 以及麻省理工学院 EE 教授 Leslie Pack Kaelbling 和 Tomás Lozano-Pérez。他们的工作得到了人工智能研究所、美国国家科学基金会、美国空科学研究办公室、美国海研究办公室、美国陆研究办公室和麻省理工学院情报探索计划的部分支持,并得到了麻省理工学院超级云和林肯实验室超级计算中心的高性能计算资源。