基于区域显著性与空间特征提取的说话人像合成方法
作者机构:南京邮电大学自动化学院人工智能学院
出 版 物:《计算机科学》 (Computer Science)
年 卷 期:2024年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金(62301278,62371254,61931012) 江苏省自然科学基金(BK20230362,BK20210594)
主 题:说话人像合成 三维重建 音视频同步 神经辐射场 注意力机制
摘 要:音频驱动的说话人像合成,致力于将任意的输入音频序列转换为逼真的说话人像视频。近期,基于神经辐射场 (NeRF) 的多个说话人像合成工作取得了优秀的视觉效果。但是,此类工作仍普遍存在着语音-嘴唇同步欠佳、躯干抖动和合成视频清晰度较低等不足。为了解决上述问题,提出一种基于区域显著特征和空间体积特征的高保真说话人像合成方法。具体而言,一方面,开发了一个区域显著性感知模块用于头部建模。它利用多模态输入信息动态调整头部空间点的体积特征,同时优化基于哈希表的特征存储,从而提高面部细节表征的精确度和渲染效率。另一方面,设计了一个空间特征提取模块用于躯干的独立建模。不同于现有方法普遍采用的直接基于躯干表面空间点坐标估计其颜色和密度的方式,该模块利用参考图像构建躯干场以提供对应的纹理和几何先验,从而实现更清晰的躯干渲染和自然的躯干运动。应用于多个人物主体的实验表明,在自我重建场景中,所提方法相较于当前最优的基线模型,在图像质量上(PSNR, LPIPS, FID, LMD)分别取得了10.15%,12.12%,0.77%和1.09%的提升,在嘴唇同步精度方面(AUE)提高了14.20%。此外,在交叉驱动(使用非训练集音频)的场景下,本算法在嘴唇同步精度(AUE)上提升了4.74%。