藏语语声识别声学模型建模单元研究
作者机构:西藏大学信息科学技术学院 西藏大学藏文信息技术创新人才培养示范基地
出 版 物:《应用声学》 (Journal of Applied Acoustics)
年 卷 期:2024年
学科分类:0501[文学-中国语言文学] 0304[法学-民族学] 0711[理学-系统科学] 03[法学] 05[文学] 050107[文学-中国少数民族语言文学(分语族)] 07[理学]
基 金:国家自然科学基金项目(62166038) 四川省科技计划项目(2023YFQ0044) 西藏大学研究生“高水平人才培养计划”项目(2021-GSP-S126)
摘 要:语声识别建模单元的选择是藏语语声识别任务中的关键问题,决定了语声识别声学模型的训练质量和识别准确性。针对藏语语声识别研究中多种建模单元在不同数据集上进行的实验,导致难以探寻合适建模单元进行藏语语声识别,使得相关科研成果难以相互支持的问题,该文提出了适用性更高同时识别效果更优秀的藏语语声识别声学模型建模单元。该文总结改进了4种建模单元,并在3种方言数据上进行了消融实验,分别训练了5种声学模型。实验结果表明,基于拉丁音素的建模单元适用于卫藏方言和康巴方言,基于拉丁音节的建模单元适用于安多方言,改进的基于注意力机制的深度卷积声学模型在安多方言上达到了最好的识别效果,测试集字错误率为14.67%。