非特定人连续语音识别的理论、分析和实验
作者单位:浙江工业大学
学位级别:硕士
导师姓名:王守觉;曹文明
授予年度:2005年
主 题:连续语音识别 单词音节 隐马尔可夫模型 高维空间几何 高维空间点覆盖 神经网络
摘 要:非特定人连续汉语数字语音识别在电话语音网关、家电遥控、工业控制、信息查询系统等领域有着广泛的应用,无论在小词表语音识别系统还是大词表语音识别系统中都具有重要的理论意义和实用价值。由于汉语具有发音短、混淆性高、方言多的特点,汉语数字语音识别比英语数字语音识别难度更大,成为目前汉语语音识别领域的热点和难点问题。 以隐马尔可夫模型为典型代表的统计方法,对动态时间序列有很强的建模能力,在参数、结构和训练方法的选择上有很大的灵活性,成为目前主流的语音识别方法。然而,由于隐马尔可夫模型是基于统计的方法,模型的训练需要大量的样本,采集样本和训练模型的工作量大,对样本数据的信息利用率不高;出现概率少的样本容易得不到充分的训练而引起误识。 本文主要研究连续汉语数字音节的建模问题,提出一种新的人机结合的数字音节特征提取方法,从连续数字语音中提取出建模和测试用的数字音节样本集,把高维空间点覆盖理论应用于非特定人连续语音识别,建立各数字音节的高维空间点覆盖神经网络模型,并使用测试集进行建模正确性验证,验证结果正确率达到97%以上。该模型用于一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识