基于文本引导的人脸图像修复
作者机构:兰州交通大学电子与信息工程学院 兰州大学信息科学与工程学院
出 版 物:《吉林大学学报(工学版)》 (Journal of Jilin University(Engineering and Technology Edition))
年 卷 期:2024年
核心收录:
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金项目(62061023,82260364) 甘肃省杰出青年基金项目(21JR7RA345) 甘肃省自然科学基金项目(23JRRA1485,22JR5RA543,22JRJ5RA166) 兰州市青年科技人才创新项目(2023-QN-109)
摘 要:针对目前人脸修复方法存在结构扭曲、纹理模糊以及不可控等问题,提出了一种文本引导的人脸图像修复方法。该方法通过融合图像特征和相应的文本特征来重建图像中的缺失区域。在网络训练中,设计了视觉-文本模态融合模块,用于关联图像和文本特征,使重建人脸缺失区域不仅以图像中可见的视觉语义为基础,还以具有丰富的文本语义为指导。在编码和解码特征之间添加了一个注意力感知层,以提高可见区域和生成区域外观的一致性。在CelebA-HQ人脸数据集上的实验结果表明,本文方法能够得到在纹理和结构上更自然且符合文本语义的修复结果,其视觉效果和评价指标均优于对比算法。