大规模非结构环境下的视觉位置识别技术研究
作者单位:天津理工大学
学位级别:硕士
导师姓名:王红君
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:视觉位置识别 ResNet SE-Net 谷歌街景 ORB-SLAM 回环检测
摘 要:位置识别技术是计算机视觉的重要研究领域,是视觉定位与地图构建(Visual Simultaneous Localization and Mapping,VSLAM)中回环检测的关键组成部分,广泛应用于机器人导航、自动驾驶等领域。在位置识别技术研究中,在较大视角和表观变化情况下实现有效识别最具实际意义。在大规模非结构环境下,视角和表观存在较大变化,传统的特征提取方法已无法适用。所以本文提出了一种基于深度卷积神经网络的视觉位置识别方法。通过引入注意力机制,使得视觉位置识别网络在大规模非结构环境情况下拥有更高的精度和鲁棒性。在搭载GPU的实验平台上,通过在自建KL数据集和公共数据集(KITTI数据集和SL数据集)上进行的验证与对比实验表明我们提出的图像特征提取方法在大规模非结构环境下更具鲁棒性。本文的主要研究成果如下:1.针对大规模非结构环境下传统特征提取方法(如SIFT、ORB和BRIEF等)无法使用的问题,提出一种基于深度卷积神经网络Res Net的图像特征提取方法,解决在大规模环境下,面对光照、摄像机拍摄角度变化、存在移动物体、建筑物和地表外观改变时的特征提取问题。2.针对ResNet缺乏注意力环节的问题,将注意力环节SE-net引入Res Net中,提高其特征提取的鲁棒性。3.本文借助谷歌街景时光机和Python爬虫建立了一个百万级的高质量视觉位置识别数据集,解决了没有大规模视觉位置识别数据集可用的问题。4.针对现有SLAM中回环检测算法在大规模非结构环境下失效的问题,本文将基于深度卷积神经网络的视觉位置识别技术应用到ORB-SLAM中进行回环检测,有效提高了ORB-SLAM在大规模非结构环境下的控制精度、鲁棒性和运行效率。5.在以上基础上,编写了视觉位置识别应用软件。