面向复杂场景的自监督单目深度估计方法研究
作者单位:南京航空航天大学
学位级别:硕士
导师姓名:曹云峰
授予年度:2022年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:自监督学习 单目深度估计 多分支卷积块 注意力机制 亚像素卷积
摘 要:复杂场景中物体数量多且短时间内物体间关系易发生较大变化,随着计算机视觉的发展,越来越多任务需要在复杂场景中进行。深度信息对于理解复杂场景中物体间的三维几何关系至关重要,比如针对复杂场景中物体边缘是否会出现碰撞进行判断时,实时的获取物体边缘处准确的深度信息则成为最关键的问题。现今深度信息的获取大都由深度传感器完成,但其使用场景受限、硬件成本较高且获得的深度值是稀疏的。故从图像中恢复场景的深度信息这一方法逐渐被推广,传统立体匹配方法的前置步骤较为繁琐,需对图像进行极线校正,故难以满足对实时性有较高要求的视觉任务。基于单张图像的深度估计算法使用场景广泛且成本低,但单一二维图像具有尺度不确定性,故长期被视为是一种病态问题。近年来,深度学习技术不断发展,卷积神经网络的特征提取能力越来越强大,为实时预测单张图像的稠密深度信息提供了新的解决思路,也产生了许多求解方法。但这些方法均在一定程度上存在真值数据难获取、物体边缘轮廓不清晰、小物体深度预测误差大、预测精度有待提高等问题。本文围绕复杂场景中进行单目深度估计展开研究。首先,因自监督学习可摆脱真值标签的束缚,本文基于自监督学习展开单目深度估计方法研究。以图像重建误差作为网络的自监督信息,结合相机模型与立体几何知识推导出本文研究的两种实现方法,并由此构建相应的卷积神经网络及损失函数,从而实现对单张图像的像素级深度预测。其次,由于针对复杂场景进行处理的网络需更强的特征提取能力,故本文提出了一种改进的卷积神经网络单目深度估计方法。其中在训练阶段,利用多分支卷积替代了原有的单支路卷积,增强了卷积神经网络的空间表征能力;分析了当前的两种自监督单目深度估计方法部分区域存在较大误差的原因,对当前损失函数进行了优化。经实验证明,本文方法相较于传统方法在复杂场景深度估计方面具有一定优化效果。最后,针对预测深度图中部分物体边缘不清晰及小物体深度值预测错误等问题,对上述创新方法进行了进一步的优化。提出了一种在卷积神经网络解码端加入通道注意力机制,然后在上采样过程中使用亚像素卷积替代插值层的方法。增强提取的特征信息以提升针对小物体的深度预测能力,同时尽可能保留更多特征信息,加强了对边缘深度的预测能力。经实验证明,该方法有效提升了网络对于局部深度预测的能力。