由嘴唇视频直接生成语音的研究
Research on direct speech generation from lip video作者机构:上海电力大学电子与信息工程学院上海200090
出 版 物:《计算机应用研究》 (Application Research of Computers)
年 卷 期:2020年第37卷第6期
页 面:1890-1894页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 08[工学] 081104[工学-模式识别与智能系统] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
主 题:嘴唇运动特征 语音分析与合成 LPC10 直接生成 LSTM
摘 要:为了更便捷地实现唇声转换,提出了一种由嘴唇视频直接生成语音的方法,并对相关问题进行了研究。首先同步地计算视频文件中的嘴唇运动特征和对应的LPC10话音编码参数,然后借助LSTM人工神经网络进行端到端的训练。训练后的网络模型可以将嘴唇运动特征映射为语音编码参数,再采用语音合成技术将语音编码参数转换成可以播放的语音样值数据。该方法跳过了中间的文字环节,因此称为直接生成,具有可方便地得到训练样本、无须人工标注的优点,同时也可以避免文本重建语音方法中存在的发音歧义。测试结果表明,在词汇量有限的应用情境中,该方法可以由嘴唇视频重建较为清晰可懂的语音。