基于单阶段生成对抗网络的文本生成图像方法
Text-to-image generation method based on single stage generative adversarial network作者机构:杭州电子科技大学计算机学院浙江杭州310018 杭州电子科技大学浙江省脑机协同智能重点实验室浙江杭州310018 杭州灵伴科技有限公司浙江杭州311121
出 版 物:《浙江大学学报(工学版)》 (Journal of Zhejiang University:Engineering Science)
年 卷 期:2023年第57卷第12期
页 面:2412-2420页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:浙江省基础公益研究计划(LGG22F020027) 国家自然科学基金资助项目(61633010,U1909202)
主 题:文本生成图像 注意力机制 对比损失 语义一致性 动态卷积
摘 要:为了提高生成图像质量,提出新的文本生成图像方法,整体框架采用单阶段文本生成图像主干.在原有模型只使用句子信息生成图像的基础上,使用注意力机制把单词信息融入图像特征,采用合理地融入更多文本信息的方式提高生成图像的质量.引入对比损失,使相同语义图像之间更加接近,不同语义图像之间更加疏远,从而更好地保证文本与生成图像之间的语义一致性.在生成器中采用动态卷积来增强生成器的表达能力.实验结果表明,所提方法在数据集CUB(Fréchet inception distance(FID)从12.10提升到10.36)和数据集COCO(FID从15.41提升到12.74)上都获得了较好的性能提升.