标签同步解码算法及其在语音识别中的应用
Label Synchronous Decoding for Speech Recognition作者机构:上海交通大学智能交互与认知工程上海高校重点实验室上海200240 上海交通大学计算机科学与工程系智能语音实验室上海200240 上海交通大学苏州人工智能研究院江苏苏州215000 苏州思必驰信息科技有限公司江苏苏州215000
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2019年第42卷第7期
页 面:1511-1523页
核心收录:
学科分类:0810[工学-信息与通信工程] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 0808[工学-电气工程] 0839[工学-网络空间安全] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划“智能机器人”重点专项(2017YFB1302400) 国家自然科学基金项目(U1736202) 江苏省基础研究计划(BE2016078)资助~~
主 题:自动语音识别 隐马尔可夫模型 连接时序模型 逐帧同步解码 标签同步解码 可变帧率 剪枝
摘 要:自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速。