图像生成中高保真着色研究
作者单位:北京邮电大学
学位级别:硕士
导师姓名:李思
授予年度:2023年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:高保真图像着色旨在将输入的灰度图像转换成彩色图像,是互联网内容生成中的重要环节,在艺术创作、场景复原中有比较广泛的应用前景。随着深度学习的飞速发展,利用人工智能技术来生成内容、借助机器辅助图像创作成为研究热点,图像生成效果也取得较大的提升。图像着色技术主要分为文本指导的图像着色和全自动图像着色两类:(1)文本指导的图像着色主要利用文本、语义分割掩码等输入来指导图像着色,该任务需要聚合多种模态输入。现阶段面临以下研究难点:首先,着色结果与输入文本语义很难保持一致。由于文本和图像两种模态间存在鸿沟,很难建立准确的文本-图像映射关系,导致生成结果与用户输入文本不符。其次,多种模态输入很难实现高效的融合与解耦。由于需要语义分割掩码等其他模态输入来帮助模型进行指定区域的着色,现有的多模态融合解耦方法很难实现高质量生成结果。(2)全自动图像着色不需要借助额外的用户输入,以自监督的方式进行训练,简化了用户的输入条件。该任务存在着色的多模式性,现阶段面临着色不合理问题以及着色饱和度低的问题,很难达到令人满意的图像着色效果。针对以上存在的问题和挑战,图像生成中高保真图像着色是一项值得研究并且前景广阔的课题。本文分别对文本指导图像着色和全自动图像着色两个方面展开研究,主要研究工作如下:首先,针对文本指导的图像着色中生成结果与输入文本不一致的问题,本文提出一种垂直结构的跨模态相似度模型来建立视觉图像和文本描述之间的关联。相比于现有的特征匹配方法,本文着重在细粒度上进行建模,优化粗细粒度的匹配过程,提升模型着色结果与输入文本之间的一致程度。这部分作为文本指导图像着色的预训练过程,实验结果显示该方法获得的着色结果和输入文本语义更加贴合,为后续完整的文本指导图像着色奠定基础。其次,针对文本指导图像生成中多模态条件融合低效的问题,本文提出全新的多模态融合模块,借助批归一化思想来实现多种模态条件间的融合交互与解耦。除此之外,为了提升着色结果保真度与和谐程度,本文设计一体化的着色框架,解除阶段间依赖并避免了阶段间误差累积现象。实验结果显示该方法提升了图像生成质量,也使得着色整体色调更加和谐。最后,针对全自动图像着色中不合理着色以及着色饱和度低的问题,本文提出基于Transformer的全自动着色网络。得益于Transformer的远程依赖优势,设计灰度选择模块来减小颜色选择范围,提高着色结果的合理性。同时,本文引入颜色标识符的概念,使用分类损失约束模型训练,提升着色饱和程度和色彩丰富度,进一步得到高保真的图像着色结果。实验结果表明,该方法可以实现更准确合理、饱和度更高的着色结果。