自由文本中汉语缩略语的自动抽取
Chinese abbreviation automatic extraction in free text作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室北京100101
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2014年第35卷第4期
页 面:1372-1378页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61171159 61271304) 北京市教委科技发展计划重点基金项目暨北京市自然科学基金B类重点基金项目(KZ201311232037)
摘 要:以汉语为对象,提出了一种从自由文本中自动抽取缩略语的方法。分析缩略语与完整形式的词性结构,提出词性模板匹配方法,获取候选缩略语与候选完整形式;根据二者之间的字面关联和共现特性,构造若干约束规则,实现候选缩略语的配对。分析缩略语与完整形式的内在关联、外部语义和外部统计3类特征,构造决策树模型,将缩略语对的判别转换为缩略语与完整形式是否匹配的二元分类问题。相比前人研究,该方法在准确率和通用性方面均有提升,其中准确率达到了72.1%。