基于密集卷积生成对抗网络与关键帧的说话人脸视频生成优化算法
作者机构:上海大学微电子研究与开发中心 上海大学机电工程与自动化学院
出 版 物:《吉林大学学报(工学版)》 (Journal of Jilin University(Engineering and Technology Edition))
年 卷 期:2024年
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61774101 61674100)
主 题:密集卷积生成对抗网络 关键帧 说话人脸视频生成 编码速率 先验损失
摘 要:人类面部结构非常复杂,包括眼睛、鼻子、嘴巴等多个部位和多个特征。在说话人脸视频中,面部表情会随着语音内容的改变而发生动态变化,在遮挡等因素的影响下,容易出现视频模糊、失真等现象。为了提高生成视频的真实感和自然度,更准确地反映说话人的语音内容和面部表情,提出了基于密集卷积生成对抗网络与关键帧的说话人脸视频生成优化算法。采用边界框回归法修正人脸的候选窗,基于关键帧比对人脸特征,获取说话人脸信息。通过验证集搜索出最优的超参量集合,建立标准正态分布的随机特征矢量,计算判别器内部参量,生成说话人脸视频。使用判别网络的目标函数,修正先验信息,选取符合真实的修复结果,实现说话人脸视频生成优化。通过实验证明:所提算法的检测召回率高于96%,SSIM、PNSR和LMD指标分别为0.99、34.7dB和2.2pixel,视频真实性为74.1%,具有较好的视频生成效果。