基于卷积神经网络的说话人识别算法
Speaker recognition based on convolutional neural network作者机构:贵州大学大数据与信息工程学院贵阳550025 贵州大学智能信息处理研究所贵阳550025
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2016年第36卷第A1期
页 面:79-81,200页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
基 金:国家自然科学基金资助项目(60862003) 科技部国际合作项目(2009DFR10530) 贵州省工业科技攻关项目(黔科合GY字(2010)2054) 教育部高等院校博士点基金资助项目(20095201110002) 贵州大学研究生创新基金资助项目(2015081)
主 题:卷积神经网络 说话人识别 通用背景模型 梅尔频率倒谱系数 预处理
摘 要:语音信号是一个时变信号,受个体、环境等影响较大。为提高说话人识别率,对原始语音信号进行一定预处理是必要的,提出一种利用卷积神经网络的说话人识别算法。该算法利用卷积神经网络的卷积和降采样两种操作对说话人识别中的语音信号进行预处理,通过构建一维和二维卷积操作,对预处理后的信号提取梅尔频率倒谱系数特征参数,并采用经典的通用背景模型对说话人进行识别模型建模。通过自建库和TIMIT标准库测试表明,该算法与经典的直接基于梅尔频率倒谱系数特征和通用背景模型的方法相比,识别率提升了8%~15%,并且有效地降低了算法的时间复杂度和空间复杂度。