利用URL-Key领域术语识别方法
Domain Term Extraction Using URL-Key作者机构:北京工业大学软件学院北京100124 北京信息科技大学网络文化与数字传播北京市重点实验室北京100101
出 版 物:《北京大学学报(自然科学版)》 (Acta Scientiarum Naturalium Universitatis Pekinensis)
年 卷 期:2018年第54卷第2期
页 面:262-270页
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61671070) 国家语言文字工作委员会重点项目(ZDI135-53)资助
摘 要:首次提出利用URL-Key进行领域术语识别的方法。以URL作为媒介,借助已知URL-Key的领域性来判断未知领域候选术语的领域性。首先,借助互联网中已有的人工分类领域URL,根据URL-Key在各领域汇总使用的频度,采用基于方差的领域URL-Key识别方法,构建领域URL-Key词表;然后,利用伪反馈技术,收集候选领域词检索得到的URL结果集,根据URL结果集构建候选领域术语的URL-Key特征向量;最后,利用SVM对候选领域术语进行提取。在4个领域进行实验,都取得不错的效果。新提出的方法可以有效地解决低频术语识别问题,为低频术语的识别提供新的思路。