基于Transformer-CNN混合架构的跨模态融合抓取检测
作者机构:重庆理工大学两江人工智能学院 同济大学电子与信息工程学院
出 版 物:《控制与决策》 (Control and Decision)
年 卷 期:2024年
核心收录:
学科分类:08[工学] 080202[工学-机械电子工程] 080203[工学-机械设计及理论] 0804[工学-仪器科学与技术] 0802[工学-机械工程]
主 题:机械臂抓取检测 跨模态 RGB-D融合 Transformer CNN
摘 要:在机器臂抓取检测领域,RGB图像和深度图像的处理效率仍有很大提升空间。提出了一种基于Transformer-CNN混合架构的新型跨模态交互融合的机械臂抓取检测方法。为了充分利用RGB和深度图像的特征信息,开发了一种高效的跨模态特征交互融合模块,用来校准RGB和深度图像相对应的特征信息,并交互增强双模态的特征。此外,还设计了一种Transformer与CNN并行的网络模块,结合CNN的局部建模能力和Transformer的全局建模能力,获得更好的特征表示,从而提高抓取检测性能。实验结果表明,该方法在Cornell与Jacquard抓取数据集上分别达到了99.1%和96.2%的准确率。在真实场景下的抓取检测实验证明了该方法可以有效预测各种场景下物品的抓取位置。