咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于BLSTM-RNN的语音驱动逼真面部动画合成 收藏

基于BLSTM-RNN的语音驱动逼真面部动画合成

Speech-driven video-realistic talking head synthesis using BLSTM-RNN

作     者:阳珊 樊博 谢磊 王丽娟 宋謌平 YANG Shan FAN Bo XlE Lei WANG Lijuan SONG Geping

作者机构:西北工业大学计算机学院、陕西省语音与图像处理重点实验室西安710072 微软亚洲研究院北京100080 

出 版 物:《清华大学学报(自然科学版)》 (Journal of Tsinghua University(Science and Technology))

年 卷 期:2017年第57卷第3期

页      面:250-256页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(61571363) 

主  题:虚拟说话人 面部动画 双向长短时记忆(BLSTM) 递归神经网络(RNN) 主动外观模型(AAM) 

摘      要:双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分