基于自编码器生成对抗网络的可配置文本图像编辑
Configurable Text-based Image Editing by Autoencoder-based Generative Adversarial Networks作者机构:中国科学院深圳先进技术研究院广东省机器人与智能系统重点实验室广东深圳518055
出 版 物:《软件学报》 (Journal of Software)
年 卷 期:2022年第33卷第9期
页 面:3139-3151页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(U21A20487) 深圳市基础研究项目(JCYJ20200109113416531,JCYJ20180507182610734) 中国科学院关键技术人才项目
摘 要:基于文本的图像编辑是多媒体领域的一个研究热点并具有重要的应用价值.由于它是根据给定的文本编辑源图像,而文本和图像的跨模态差异很大,因此它是一项很具有挑战的任务.在对编辑过程的直接控制和修正上,目前方法难以有效地实现,但图像编辑是用户喜好导向的,提高可控性可以绕过或强化某些编辑模块以获得用户偏爱的结果.针对该问题,提出一种基于自动编码器的文本图像编辑模型.为了提供便捷且直接的交互配置和编辑接口,该模型在多层级生成对抗网络中引入自动编码器,该自动编码器统一多层级间高维特征空间为颜色空间,从而可以对该颜色空间下的中间编辑结果进行直接修正.其次,为了增强编辑图像细节及提高可控性,构造了对称细节修正模块,它以源图像和编辑图像为对称可交换输入,融合文本特征以对前面输入编辑图像进行修正.在MSCOCO和CUB200数据集上的实验表明,该模型可以有效地基于语言描述自动编辑图像,同时可以便捷且友好地修正编辑效果.