基于语音识别的多模态人机交互系统关键技术研究
Research on key technologies of multimodal human-computer interaction system based on speech recognition作者机构:咸阳职业技术学院陕西咸阳712000
出 版 物:《自动化与仪器仪表》 (Automation & Instrumentation)
年 卷 期:2023年第11期
页 面:222-225页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:教育部科技发展中心2022年虚拟仿真技术在职业教育教学中的创新应用专项课题《基于虚拟仿真技术的学前教育专业群实践教学体系研究》(ZJXF2022273) 陕西省教育科学“十四五”规划2023年度课题《教育数字化背景下职业院校新形态教材开发的研究与实践——以学前教育专业为例》(SGH23Y3110) 陕西省社科联职业教育理论与实践课题《“双高计划”视域下学前教育专业群新形态教材建设探索与实践》(2023HZ1426)
摘 要:为了降低多模态人机交互系统在语音识别中的误差,研究提出了一种基于一维向量卷积神经网络(1-Dimensional Convolution Neural Network,1DCNN)的英语语音识别技术,并提出语音去噪方法,以此构建多模态人机交互系统。在1DCNN算法的性能分析中显示,研究采用的1DCNN算法损失值较小,且在训练中的误差值在0.005以内。此外在多模态人机交互系统的测试中显示,系统能够有效处理噪声信号,并且在不同情绪语音鉴别中的准确率较高,同时针对混合英语语音的鉴别准确率也在90%以上。以上结果表明,采用1DCNN算法能够有效提升多模态人机交互系统的语音识别和处理能力,为多模态人机交互的普及提供了设计方向,并为交互技术的未来发展提供理论支持。