咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习多特征融合的命名实体识别研究 收藏
基于深度学习多特征融合的命名实体识别研究

基于深度学习多特征融合的命名实体识别研究

作     者:周丰 

作者单位:长春工业大学 

学位级别:硕士

导师姓名:韩旭明;吕会军

授予年度:2021年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:命名实体识别 深度学习 笔画特征 部首特征 BiLSTM-CRF 

摘      要:命名实体识别是自然语言处理众多任务中的一项子任务,也是从大量结构化和非结构化文本数据中挖掘可利用信息的一项重要技术。深度学习技术在自然语言处理领域以得到了广泛研究和应用。它强大的特征学习能力可以有效地挖掘文本的深层语义信息,有效的特征表达解决了中文命名实体提取任务中中文特征表达不足的问题。中文命名实体识别在各个领域中已得到广泛应用,主要识别特定领域的命名实体,例如在医疗领域命名实体识别主要识别患者的身体部位,疾病,治疗方法,症状等,并且也会识别常用命名实体,例如患者的姓名、居住地址等。完成这些命名实体识别任务面对主要困难是现有模型中文向量特征表示过于单一的问题,进而导致实体识别模型性能较差的问题。因此针对以上问题,本文采用深度学习的方法,使用BiLSTMCRF模型作为基准模型,引入中文笔画、部首两种内部特征提高命名实体识别模型性能。具体工作内容如下:(1)针对汉字潜在特征表征不足的问题,本文使用双向长短期记忆神经网络(BiLSTM)来提取笔画和部首基础特征。基于以上两个特征,提出一种基于笔画和部首特征的中文临床命名实体识别模型。该方法不仅可以捕获汉字内的笔画依赖性,而且还可以增强汉字的语义表示,从而提高模型的识别能力。该模型在CCKS-2017任务2基准数据集上进行测试,模型准确率达到93.66%,F1得分达到94.70%。与基本的BiLSTM-CRF模型相比,模型的准确率提高了3.38%,召回率提高了1.05%,F1值提高了1.91%。(2)针对汉字潜在特征表征不足的问题,并且为了更好、更均衡的融合笔画和部首这两种基础特征,本文提出了一种多特征自适应融合中文命名实体识别模型,采用加权串联方法自适应融合两组特征。该模型在Microsoft Research Asia(MSRA)和1998年1月至1998年6月《人民日报》数据集上测试,F1值分别为97.01%和96.78%。基于以上实验结果表明,有效的特征表示可以提高命名实体识别模型识别能力。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分