基于词向量和条件随机场的领域术语识别方法
Domain-specific term recognition method based on word embedding and conditional random field作者机构:大连海洋大学信息工程学院辽宁大连116023 辽宁省海洋信息技术重点实验室(大连海洋大学)辽宁大连116023 大连海洋大学经济管理学院辽宁大连116023
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2016年第36卷第11期
页 面:3146-3151页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 08[工学] 081104[工学-模式识别与智能系统] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
摘 要:针对基于统计特征的领域术语识别方法忽略了术语的语义和领域特性,从而影响识别结果这一问题,提出一种基于词向量和条件随机场(CRF)的领域术语识别方法。该方法利用词向量具有较强的语义表达能力、词语与领域术语之间的相似度具有较强的领域表达能力这一特点,在统计特征的基础上,增加了词语的词向量与领域术语的词向量之间的相似度特征,构成基于词向量的特征向量,并采用CRF方法综合这些特征实现了领域术语识别。最后在领域语料库和Sogou CA语料库上进行实验,识别结果的准确率、召回率和F测度分别达到了0.985 5、0.943 9和0.964 3,表明所提的领域术语识别方法取得了较好的效果。