基于Kinect辅助的机器人带噪语音识别
作者单位:天津大学计算机科学与技术学院 天津大学软件学院
会议名称:《第十三届全国人机语音通讯学术会议(NCMMSC2015)》
会议日期:2015年
学科分类:0711[理学-系统科学] 07[理学] 080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0802[工学-机械工程]
基 金:国家自然科学基金(No.61175016 No.61304250)
关 键 词:仿人机器人 自身噪声 自动语音识别 Kinect 多模态系统
摘 要:音视频信息融合可以提升机器人在噪声环境下的语音识别性能。然而,受说话者的头部旋转、唇部尺寸不一、距摄像头距离不固定以及光照等因素影响,使得唇部信息不能得到有效的全面表征。为此,本文提出了融合机器人与Kinect的多模态系统。该系统采用Kinect获取3D数据和视觉信息,并使用3D数据重构侧唇,以此来补充音视频信息。一系列基于特征融合和决策融合方法的结果表明,本文提出的多模态系统优于基于音视频单流和双流的语音识别效果,能够辅助机器人自身噪声下的语音识别。