基于深度学习的单目图像新视图合成
作者单位:武汉大学
学位级别:硕士
导师姓名:肖春霞
授予年度:2020年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:视图合成 深度估计 图像增强 图像风格迁移 图像上采样
摘 要:视图合成作为计算机视觉领域的一项热门的研究,在虚拟现实、场景三维展示、2D视频转3D视频等领域应用广泛,为传统的图像和视频媒体提供了更为生动的信息展示方式。作为其中的关键性技术,深度估计为视图合成提供了场景的几何信息和从已知视图中采样的依据,其质量直接决定了视图合成的效果。传统的基于多视图立体几何的深度估计方法依赖于特征点匹配算法,在真实世界中复杂的自然场景下拍摄的图片经常会出现光照不一致或者部分区域纹理缺失的问题而影响匹配算法的精度,且多视图方法需要用到多张图片,在实际应用时不一定能获取同一场景的多张图片。现有的基于深度学习的深度估计方法利用海量的数据对场景进行理解,能够在一定程度上弥补光照或纹理问题而带来的精度损失问题,且可以作用于单张输入图片,但这些方法估计的深度图往往缺乏场景的纹理细节信息,并且输出结果的分辨率较小,在进行上采样将其用于高分辨率视图合成时,深度图像的物体边界不够精细,会影响视图合成的效果。本文对基于深度学习的视图合成进行了比较系统的分析和研究,针对现有工作的局限,提出了从深度图细节增强和边界优化两个方面进行改进的算法,主要贡献为:(1)提出了一种基于多细节尺度输入的深度估计方法。通过借鉴图像增强领域的多尺度图像细节增强,为深度估计网络的输入图片计算多个尺度下的细节图片和增强后的图片,并将这些图片联合作为网络的输入。通过增加细节图片和增强后的图片作为输入,网络可以提取更关注于图像细节的特征并自适应地选取特征,输出包含更丰富纹理细节信息的深度估计结果。(2)提出了一种基于多层次约束的网络损失函数。通过借鉴图像风格迁移领域的思想,对重建图像的颜色、内容、纹理等多个方向进行约束,使得深度估计结果符合多方面的要求。(3)提出了一种利用RGB图像引导的基于深度学习的深度图上采样方法。通过对原始图像进行编码下采样,并与低分辨率的深度图一并输入解码上采样网络,输出高分辨率的深度图像。此外,利用边缘检测算法检测RGB图像的物体边界并按照一定的阈值转化为边界权重作用于损失函数,使得网络更加关注边界区域的上采样效果,输出的高分辨率深度图边界更加清晰。本文利用定性和定量分析,通过多方面对比实验验证了所提出方法在深度估计和视图合成优化上的有效性。