一种新的基于规则的多音字自动注音方法
作者单位:清华大学计算机科学与技术系
会议名称:《第二届全国学生计算语言学研讨会》
会议日期:2004年
学科分类:0502[文学-外国语言文学] 05[文学] 050211[文学-外国语言学及应用语言学]
基 金:863高技术项目(2002AA117010) 国家自然科学基金(60275014)
关 键 词:字音转换 多音字 韵律短语 韵律功能词性 特征提取
摘 要:本文统计了大量正确标音的语料,结果表明220个多音字的出现频度占总频度的99%以上。本文针对这220个多音字,提出了一种新的基于规则的多音字自动注音的方法。该方法首先对语句中的多音字进行预分类,然后基于8项特征提取规则,并进行自动注音。文中研究分析了读音与词性的关系,提出了韵律功能词性的概念,改善了繁琐的词性信息。文末给出了含有韵律功能词性的多音字处理方法的测试结果,并与其他方法进行比较,实践表明,该方法提高了多音字注音的正确率。