基于机器视觉的环境智能感知与理解
作者单位:哈尔滨工程大学
学位级别:硕士
导师姓名:傅荟璇;郑坤
授予年度:2019年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:场景感知 场景理解 视觉SLAM 语义分割 语义地图
摘 要:对未知复杂环境的智能感知与理解是目前机器人领域和计算机视觉领域研究的重要课题。目前,同时定位与地图构建(Simultaneously Localization And Mapping,SLAM)系统通过使用传感器完成其自主定位以及对周围环境的三维重建。另一方面,基于深度卷积神经网络的语义分割方法实现了对图像高精度的像素级分类。但是SLAM系统只能得到环境的几何信息,而语义分割系统只能得到图像的二维语义信息,因此在本文中,通过结合环境几何信息和图像二维语义信息,进而构建环境的三维语义地图,完成对未知环境的智能感知与理解。首先,通过基于RGB-D相机的视觉SLAM系统完成相机的位姿估计及其优化。视觉SLAM系统通过提取并匹配相邻两帧图像的特征,利用匹配到的特征点对的几何关系估计相机位姿,并采用捆集调整算法优化局部地图中的相机位姿和特征点位置。另外,通过基于词袋模型的回环检测算法判断相机运动轨迹是否出现回环,在检测到出现回环时,将该回环加入到用于全局地图优化的位姿图中,从而消除累计误差,得到优化的相机位姿。其次,设计了基于深度卷积神经网络的语义分割系统,进而得到图像中的二维语义信息。语义分割系统基于Google提出的Deep Lab V3+算法,该算法通过将编码-解码方式和整合上下文信息方式结合起来,从而优化分割系统的性能。另一方面,将空洞卷积和深度可分离卷积结合起来,在扩大感受野的同时减少了计算资源和存储资源。最后,将视觉SLAM系统得到的环境几何信息与语义分割系统得到的图像二维语义信息相关联,得到三维环境中对象级别的语义信息,并随着RGB-D相机的运动不断更新或创建对象模型,进而构建三维场景中全局一致的语义地图,最终实现对环境的智能感知与理解。为了节省存储空间和更好的对地图进行表达,将语义点云地图转化为语义八叉树地图。