完全端到端的藏语安多方言语声合成
作者机构:西北师范大学物理与电子工程学院
出 版 物:《应用声学》 (Journal of Applied Acoustics)
年 卷 期:2025年
学科分类:0501[文学-中国语言文学] 0711[理学-系统科学] 0304[法学-民族学] 03[法学] 05[文学] 050107[文学-中国少数民族语言文学(分语族)] 07[理学]
基 金:国家自然科学基金项目(62067008,62267008) 甘肃省高等学校创新基金项目(2022B-091) 西北师范大学青年教师科研能力提升计划项目(NWNU-LKQN2024-11)
主 题:语声合成 藏语安多方言 端到端 语料库 藏文文本转写
摘 要:目前藏语语声合成研究多面向卫藏方言,而对安多和康方言研究相对较少。在分析藏文特点的基础上,该文首先设计并构建一个大规模标准安多方言语声合成语料库(TACSS),总时长为18.6 h。然后,设计了基于计算机可识别机读音标的SAMPA-AT和基于藏文构件的两种字素到音素(G2P)转写方案。最后,采用完全端到端语声合成模型VITS,实现了藏语安多方言的语声合成。与此同时,该文还比较了基于SAMPA-AT和基于藏文构件的两种G2P转写方案的优劣。实验结果表明,与两阶段语声合成模型相比,VITS在藏语安多方言语声合成任务上具有更好的表现。通过采用基于藏文构件的转写方案,该文提出的完全端到端藏语安多方言语声合成模型平均意见得分最优值为4.59。