咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的多视图三维重建算法研究 收藏
基于深度学习的多视图三维重建算法研究

基于深度学习的多视图三维重建算法研究

作     者:寻华生 

作者单位:安徽大学 

学位级别:硕士

导师姓名:张晶晶

授予年度:2022年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0811[工学-控制科学与工程] 

主      题:三维重建 深度图预估 深度学习 多视图 注意力机制 

摘      要:三维重建是指目标场景或物体依靠单目、双目或多目的二维影像还原现实三维空间模型的过程。在庞杂的三维重建算法之中,以多视图深度预估为基础的三维重建算法在操作方面拥有高度的灵活性,对于目标的重建精度以及完整度较好的优点,逐渐成为三维重建算法的主要选择方式。传统的三维重建算法在精度和完整度上难以达到平衡,受不稳定的外界因素(例如光照角度、取样角度等)影响较为严重,同时人工设计特征矩阵也存在难度高、稳定性较差等问题。为此,有科研人员提出将多视图深度预估与深度学习相结合(Multi-image stereo network,MVSNet),首先通过卷积神经网络对目标场景或物体进行深度预估,在通过传统算法进行点云融合,增强了目标场景或物体的重建精度和完整度。相较于传统算法,虽然结合深度学习框架的多视图深度预估有较大提升,但是目前该领域依然存在需要解决的问题:(1)当目标场景或物体存在弱纹理、高度镜面反射区域以及内容遮挡等问题,重建目标的精度和完整度将会下降;(2)目前大多数基于深度网络的多视图深度预估算法的改进方向侧重于降低计算量,而忽略了初始阶段特征提取的重要性;(3)由于三维卷积层具有较大的感受野范围,网络对于重建目标的预估深度会出现边界过于平滑的现象;(4)三维卷积神经网络在训练过程中需要消耗巨额的计算资源和长时间的目标深度预估等问题。针对上述问题,本文的主要工作为:(1)提出一种基于位置注意力的多视图深度预估网络(U-Net with position attentive network,UPA-Net)。该模型以U-Net架构为基础,对于不同层次感受野的特征进行信息融合,同时利用位置注意力增强空间上下文建模的长距离依赖性,强化场景或物体在深度图中的纹理信息,提升目标场景或物体的完整性。其次,针对匹配代价体在正则化阶段的巨大内存消耗,UPA-Net采用双阶段的浅层3D U-Net获取概率体。此结构紧凑、轻量的特点使邻域信息不易丢失,从而在推断高分辨率深度映射时,实现高完整度的重建结果。此外,本文添加结构性相似损失函数来提升目标物体或场景的完整度,加快模型收敛速度。在公开数据集DTU、Tanks and Temples、Blended MVS上验证本算法在目标物体或场景的重建精度及完整度方面要优于其他网络。(2)构建一种基于多尺度并行特征提取模块(Multiscale parallel feature,MPF),并以MPF模块为基础提出MPF-MVSNet。MPF中残差块的分层残差类连接会提升各级网络卷积核感受野范围,将多尺度特征用更细粒度表示,降低目标场景或物体由于遮挡等问题带来的影响。其次,MPF内部嵌入Triplet模块,一方面用于捕捉目标特征的通道维度与空间维度的跨维交互信息,另一方面用于聚合视图间和视图内的上下文信息。在匹配代价体正则化阶段,使用矩阵内积来代替传统的方差,增强视图间的信息交互,提升目标场景或物体深度的完整度。同样的,在大量的实验中证明MPF-MVSNet可以有效提升目标物体或场景三维重建的精度和完整度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分