咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于FPGA深度学习的语音识别系统的设计与工业应用 收藏
基于FPGA深度学习的语音识别系统的设计与工业应用

基于FPGA深度学习的语音识别系统的设计与工业应用

作     者:宋玉洁 

作者单位:电子科技大学 

学位级别:硕士

导师姓名:闫明明

授予年度:2023年

学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080902[工学-电路与系统] 07[理学] 0809[工学-电子科学与技术(可授工学、理学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:语音识别 卷积神经网络加速器 连接性时序分类 FPGA 

摘      要:人工智能飞速发展之下,语音识别技术已经产生质的飞跃,将语音交互应用于智能家居、移动电子设备等领域也逐步成为现实。基于深度学习的神经网络作为当代科技关键技术,凭借其高效的特征提取能力在语音识别研究中表现十分出色。然而目前语音识别算法大多虽然具有较高的准确率,却具有十分复杂的网络结构以及大规模的网络参数,执行语音识别任务时往往对硬件要求较高,需要CPU、GPU等功耗较高的设备或者是存在网络依赖的云服务器,如何部署到实时性好、功耗低的移动终端具有一定的研究意义。为解决以上问题,本文基于语音识别算法的发展现状,设计了一种准确率较高的语音识别算法,并利用FPGA搭建了语音识别系统验证平台,主要研究内容如下所示:(1)设计了一种基于连接时序分类的语音识别算法,选择语谱图声学特征作为网络模型的输入信号,在声学模型结构中采用了卷积神经网络架构,并使用了批量归一化层、步进卷积代替池化以及不同尺寸的卷积核设计优化声学模型,模型训练时使用了数据增强以增强数据多样性,最终模型获得了82.53%的识别准确率。(2)在语音识别硬件实现方面,对算法进行了层融合与模型量化。对语音识别环节中的卷积神经网络采用模块化设计思路设计硬件加速器,考虑到开发板资源,重点对卷积模块进行了加速设计,从数据传输方式、通道流水并行化以及任务级并行化等方面提高了卷积模块的并行计算能力。(3)使用米联客生产的MZ7030FA搭建了语音识别硬件平台,对实时输入的语音进行了测试,在100MHz的时钟频率下,预测一段语音的时间延迟平均约为275ms,硬件加速器功耗为2.217w,动态功耗占比94%。在CPU、GPU、FPGA三个硬件平台下对同一段语音进行实时检测,FPGA的识别速度比CPU快约60倍,比GPU快约2倍,功耗仅为GPU的21%,计算性能达到了58.3GOPS,能效比为26.3GPOS/W。实验结果证明基于FPGA的语音识别系统具有良好的实时性和低功耗性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分