基于深度估计的物体分类与检测技术研究
作者单位:天津大学
学位级别:硕士
导师姓名:侯春萍;侯瑞
授予年度:2019年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:随着科学技术及经济社会的发展,计算机视觉技术在很多领域得到了广泛的应用。物体分类与检测技术作为计算机视觉研究中的基本问题,是场景识别、动作识别、人脸识别等其他视觉任务的基础。本文在分析现有物体分类与检测技术的基础上,发现了基于RGB图像的方法由于二维数据固有的局限性,缺乏实际三维场景的深度信息,易受光照、物体尺度变化等因素的影响,而基于RGB-D图像的方法虽然弥补了二维图像识别方法的不足,但在实际测试时却需要深度传感器来采集真实深度信息,并且传感器本身测距范围有限等局限性也限制了RGB-D方法的应用。本文基于单目深度估计的方法,将深度估计得到的深度信息引入到现有物体分类与检测模型中,以提升现有方法的识别性能。本文的主要研究工作包括:(1)提出了一种基于单目深度估计的物体分类与检测方法,使得模型在实际测试时,仅需RGB图像输入,无需深度传感器引入深度信息,就可以提高现有分类和检测算法的识别性能。(2)针对于现有单目深度估计算法在细节重构上的不足,提出了一种基于特征金字塔网络的深度估计模型,使用像素重组模块提升上采样过程中的特征提取能力,使用残差池化模块使得网络能够充分利用上下文信息,并且设计了一种同时考虑深度、梯度和表面法向量三种几何意义的损失函数。在公开数据集上的对比实验表明,所提出方法能够在更少参数占用与更快运行速度的情况下,获得良好的深度估计结果,并且对于场景的结构细节具有更好的重构效果,更有助于后续分类检测任务的性能提升。(3)将深度估计模型引入到现有物体分类检测模型中,探究网络初始化方法、融合位置等融合策略的选择,并且采用多任务学习的优化方式,联合优化深度估计模型与分类检测模型,使得深度估计模型能够在训练中接收识别任务的语义引导,生成更有利于分类检测任务的深度图。在公开数据集上的对比实验表明,本方法能够有效提升模型的分类检测性能。同时在不含有真实深度图的数据集上进行了泛化性分析,实验表明本文方法在自然图像上具有良好的泛化性能。