咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >针对长尾问题的二重加权多音字消歧算法 收藏

针对长尾问题的二重加权多音字消歧算法

Double-Weighted Disambiguation Algorithm for Long-tail Polyphone Problem

作     者:高羽 熊一瑾 叶建成 GAO Yu;XIONG Yijin;YE Jiancheng

作者机构:美的集团(上海)有限公司AI创新中心上海201702 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2022年第36卷第11期

页      面:169-176页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:多音字消歧 长尾分布 重加权 解耦特征与分类器 

摘      要:数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符与“字音两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted,DW)。DW算法可分别与两种长尾算法:MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分