基于纯文本跨模态的三维模型生成技术研究及应用
作者单位:电子科技大学
学位级别:硕士
导师姓名:谢宁
授予年度:2021年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:在专业的建模设计者利用计算机三维建模工具进行模型设计的时候,这是一份繁重且困难的工作。虽然三维建模工具具有建模精度高且可以依靠建模人员的意图来创建富有创意性、复杂性和新颖性的三维模型的优点,但是三维建模工具的使用入门门槛较高、操作复杂、需具备专业的建模知识以及软件的成本较高,例如3DS MAX、MAYA、AUTO CAD等软件。这些限制条件对于初学者来说都是不太友好的,同时需要耗费大量的人力和时间成本。文本作为人类记录思想、交流思想或传播语言的图像或符号,文本是表达事物的最佳方式,语言使人们能够交流思想和感受。长期以来,人工智能研究一直在模仿人类认知的这一组成部分。采用深度学习的方法从自然语言描述如“一张带有四个木腿的白色长方形桌子中,提取模型的结构和几何特征实时自动重建出与文本语义一致的三维模型,这是本论文研究的重点。本文提出一种端到端的从自然语言描述生成三维模型的方法,采用分阶段方式来将此任务进行拆分,第一阶段是从文本特征中生成具有形状、颜色等信息的特征图,第二阶段是从单视角特征图中重建出高分辨率的三维模型。同时为了减少生成特征图的信息丢失和提高图像的质量、多样性和文本一致性,本文以增大网络深度和增加额外的约束条件两种优化策略来提出两个版本的网络结构,分别是CWGANgp和自注意力机制,同时用Inception Score(IS)和Frechet Inception Distance(FID)两个指标来评估生成效果,结果表明两个不同的实验在IS和FID两个指标都有一定程度的提升。意味着本文提出的两个优化网络在新的数据集上表现力更好,生成的图像更清晰、与文本一致性更高。同时以Res Net网络作为第二阶段的编码器,将前者输出的图像特征经过编码器得到特征向量,再以Occupancy Networks作为编码器来训练出高分辨率的三维形状。同时本文基于此方法实现了一套从文本到三维模型自动建模系统,帮助建模人员和初学者能够快速高效的自动建模。