针对长尾问题的二重加权多音字消歧算法
Double-Weighted Disambiguation Algorithm for Long-tail Polyphone Problem作者机构:美的集团(上海)有限公司AI创新中心上海201702
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2022年第36卷第11期
页 面:169-176页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符与“字音两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted,DW)。DW算法可分别与两种长尾算法:MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。