在机器人和人工智能的进步中,重庆理工大学的研究人员及其国际合作者开发了一种用于增强交互识别的尖端方法。这项研究发表在《机器人与仿生系统》上,介绍了合并和拆分图卷积网络(MS-GCN),这是一种专门用于解决基于骨架的交互识别复杂性的新方法。
人机交互识别在各种应用中都发挥着至关重要的作用,从增强人机界面到改进监控系统。传统方法通常依赖于RGB数据,难以应对诸如照明变化和遮挡等问题,因此准确识别是一项挑战。
基于骨骼的方法专注于人体关节的结构,由于其对此类环境变化的稳健性而提供了一种有前途的替代方案。
新推出的MS-GCN解决了捕捉多个人之间互动动态这一长期存在的问题,而这往往被传统的图卷积网络所忽视。通过将合并和拆分图卷积与分层引导注意力和短期依赖模块相结合,MS-GCN能够出色地理解互动过程中不同身体部位之间的细微关系。
MS-GCN的创新特点:
合并与分裂图结构:该结构以独特的方式将交互个体的联合信息合并到统一的特征空间中,从而可以对交互进行整体分析。它将两个个体的相应层次集的节点映射到同一语义空间中,从而有助于更精确地识别特定于交互的动作。
层次引导注意力:此组件在强调不同层次集的重要性方面至关重要,这些层次集基于它们与当前交互的相关性。例如,在挥手等动作中,它更关注涉及手的层次集,确保不会错过关键的动作特征。
短期依赖模块:认识到运动的短期变化对于区分类似动作(例如握手和击掌)至关重要,该模块增强了模型对这些细微差异的敏感度。
MS-GCN在两个公认的数据集NTU60和NTU120上的表现证明了其有效性,并取得了最佳结果。该方法已通过大量实验进行了严格验证,证明了其在双人和单人交互场景中均优于现有方法。
随着机器人和人工智能系统越来越多地融入日常生活,它们以细致入微且有意义的方式理解人类并与人类互动的能力至关重要。MS-GCN不仅推动了动作识别领域的发展,还为开发更直观、反应更灵敏的人工智能系统开辟了新途径。
这项研究标志着人工智能在无缝融入人类环境的探索中迈出了重要一步,让我们看到了未来数字系统能够以前所未有的精度和效率预测和响应人类行为的前景。