咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于知识蒸馏的文本无关说话人确认研究 收藏
基于知识蒸馏的文本无关说话人确认研究

基于知识蒸馏的文本无关说话人确认研究

作     者:李俊义 

作者单位:辽宁工程技术大学 

学位级别:硕士

导师姓名:汪澜

授予年度:2022年

学科分类:0711[理学-系统科学] 07[理学] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:说话人确认 知识蒸馏 时延神经网络 模型压缩 附加角裕度损失函数 

摘      要:文本无关说话人确认技术通过复杂的网络结构来提升模型性能,然而这会产生巨大的内存消耗和递增的计算成本,使得说话人确认模型难以部署在轻量级设备上。针对这一问题,设计一种嵌入级知识蒸馏的教师学生网络框架来构建模型复杂度较小的学生模型。首先,采用多层次组合连接的时延神经网络,改善说话人向量的表示能力。其次,用附加角裕度损失函数(Additive Angular Margin loss function,AAM-Softmax)代替传统的Softmax损失函数,改善在模型训练过程中说话人向量的类内分辨性,降低参数计算复杂度和收敛难度。再次,建立float16浮点数的权重数值,并结合混合精度训练方法,在改善数值精度损失带来的性能损失的同时降低模型训练所需空间。最后,利用教师模型指导学生模型,缩小学生模型和教师模型之间的性能差距,使得说话人向量的提取模型能适应存储或者计算资源有限的设备。在Vox Celeb1数据集上的实验结果表明,设计的学生模型在实现等错误率(Equal Error Rate,ERR)降低到4.59%时,参数量仅为1.30M。与现有模型相比,提出的学生模型在牺牲小部分模型识别准确率的情况下,大幅压缩了模型参数,为将文本无关说话人确认模型部署在存储空间或计算资源有限的设备上提供了可能。该论文有图20幅,表6个,参考文献55篇。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分