基于生成对抗网络的3D目标重建研究
作者单位:北京交通大学
学位级别:硕士
导师姓名:李浥东
授予年度:2020年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:三维体素重建 生成对抗网络 卷积神经网络 投影转换 无监督学习
摘 要:计算机技术的迅猛发展,使得机器认知与人类感知之间的界限愈发模糊,众多领域日趋呈现出全自动、自适应的智能化模式。在此背景下,单一的二维数据模式已经无法满足人们对三维世界的探索,如何将广泛存在的二维信息快速、精确地恢复到三维空间已然成为计算机视觉领域乃至工业领域的重点研究课题。三维重建系统,作为完成二维信息到三维空间映射的有效手段,可以充分利用二维图像特征与投影轮廓等信息自动进行三维模型构建,旨在解决低维信息不满足问题,以期能够更好地对物体或空间进行全面感知与交互。三维重建,尤其是三维目标体素重建,是计算机视觉领域全新的课题方向,是指利用多视图甚至单视图进行目标对象或场景的三维形状恢复工作。但它不同于一般的视觉问题,其任务是要感知三维环境,而非简单的识别、检测等。目前常用的基于深度学习的解决思路是利用复杂的先验概率问题来表达空间的维度提升转换。然而,此类基于深度学习的三维重建算法多采用单体素独立的启发式准则,过分依赖先验数据的同时过度约束了物体轮廓。3D生成对抗网络的兴起为三维重建提供新思路,其使用对抗性准则代替传统的启发式准则,隐式地捕获对象结构,并为无监督重建工作奠定了基础。因此,本文以三维目标重建为研究对象,重点探索了基于生成对抗网络的单视角三维体素重建和无监督三维体素重建两类问题,主要工作和贡献总结如下:首先,解决和完善了形状数据集(3D Shape Net Core)二维与三维数据不对称问题,选取其中五类实体对象CAD模型进行三维体素化处理,并对每个三维目标对象渲染和生成了二维图像和二维投影集,以供三维体素重建相关实验的使用。其次,为了提升三维体素重建精度和网络训练稳定性,在基于生成对抗网络的三维体素重建算法基础上采用了基于倒角距离(Chamfer Distance)的重建损失函数和基于推土机距离(Wasserstein Distance)的鉴别器梯度惩罚方法,以此来完成各个网络模块的参数优化。通过对比实验验证了该组损失函数设置能够有效地提升固定分辨率下的三维体素重建精度,并优于其他相关方法。最后,针对三维体素重建算法多依赖先验数据,但三维数据又难以收集和处理的问题,提出了基于生成对抗网络的无监督三维体素重建算法。其充分利用了透视投影变换原理将体素模型从三维坐标系转换到投影坐标下,再借助多视角投影集完成对抗性准则,从而完成三维体素重建工作。实验证明了所提方法的可用性,并在精确度上优于同类无监督方法。