基于Squeezeformer的多颗粒度多方面发音质量评测方法
作者机构:新疆大学软件学院 新疆大学计算机科学与技术学院
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2024年
学科分类:12[管理学] 050102[文学-语言学及应用语言学] 03[法学] 030303[法学-人类学] 05[文学] 07[理学] 08[工学] 0501[文学-中国语言文学] 0303[法学-社会学] 0711[理学-系统科学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:中央引导地方科技发展专项资金项目“202204120018 无线广播信道内容制作应用示范”(202204120018)
主 题:Squeezeformer 发音质量评测 预训练模型 特征融合 皮尔逊相关系数
摘 要:口语发音质量评测相对于发音错误检测(MDD)任务,不仅需要原始的数据特征,还需要许多流畅度、准确度、完整度等特征辅助进行实现,所以对口语发音质量评测的研究目前远远少于对MDD的研究。目前对于口语发音质量评测的研究都是对语音评分某一项指标单方面进行评分。将Transformer替换Squeezeformer的改进模型Squeezeformer-MR对基线模型进行改进,Squeezeformer-MR使用了多个残差连接增强了前后特征信息的传递。实验中,在参数设置上保持与基线模型一致,使用最稳定的24层嵌入层时,音素级、词级和句子级方面的综合评分皮尔逊相关系数(PCC)相比基线模型分别提升了1.96%,6.37%和1.08%。在初次改进的基础上,,使用WavLM和HuBERT预训练模型对训练集提取相应的特征,将提取到的预训练特征以拼接方式添加到原GOP特征中,进行特征融合,使用融合特征以相同方式进行训练,得到的音素级、词级和句子级方面的综合评分皮尔逊相关系数(PCC)相对于基线模型分别提升了2.45%,7.10%和1.89%。