基于字符信息相关性与多语义特征的命名实体识别研究
作者单位:广东工业大学
学位级别:硕士
导师姓名:左亚尧
授予年度:2021年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:命名实体识别任务的目的在于高效地从文本信息中抽取实体信息,是自然语言处理的基础性工作,但受制于数据中未登录词的影响,导致命名实体识别的效果欠佳,造成数据信息的丢失与遗漏,并影响到关系抽取等自然语言处理的上层任务,因此为保证实体信息的有效识别与提取,命名实体识别的研究工作变得尤为重要。现有研究主要围绕深度学习技术展开,采用深度学习技术能够在输入输出间建立映射关系,从文本数据中得到更加低维且信息量丰富的特征,并通过分类器得到最终的输出向量,而无需借助过于复杂的人工特征工程。但尽管基于深度学习的命名实体识别技术在近些年取得了许多优秀的成果,其中也存在着一定程度的不足,如模型过于注重局部特征而忽视了全局特征、无法处理非线性的复杂数据以及语料中未登录词的影响,如何能构造一个高性能的命名实体识别模型是一个非常值得研究的问题。为此,本文提出了一种融合统计学习与深度学习的命名实体识别方法,从未登录词与多语义信息两个方面开展研究,主要创新点如下:(1)针对现有分词工具在处理未登录词时不仅识别效果欠佳,且存在识别时间较长、复杂度较高等问题。研究了未登录词的构词特征,将成词概率信息与双数组Trie树相结合,构建了混合信息双数组Trie树的未登录词动态识别模型,提出一种解决文本数据中存在未登录词问题的方法。并对语料中的未登录词进行识别,量化实验分析,证明该方法的有效性,提高了未登录词识别的精度和速度,减少所消耗的空间。(2)鉴于基础的深度学习模型获取特征维度较为单一,输入特征信息不够全面等问题,本文提出一种深度神经网络的命名实体识别方法,通过获取非线性复杂语义的特征进行命名实体识别任务。利用BiLSTM模型学习得到上下文特征向量,并将字符邻接矩阵及特征矩阵馈入GCN得到全局语义特征向量,构建了一种包含多维语义信息的命名实体识别模型。通过对比实验,验证了该模型对提升命名实体识别的效果,有效地提升了识别结果的准确率。