咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的金融领域命名实体识别方法 收藏
基于深度学习的金融领域命名实体识别方法

基于深度学习的金融领域命名实体识别方法

作     者:焦樵 

作者单位:中南财经政法大学 

学位级别:硕士

导师姓名:魏金龙

授予年度:2022年

学科分类:02[经济学] 0202[经济学-应用经济学] 020204[经济学-金融学(含∶保险学)] 

主      题:命名实体识别 中文金融实体 BERT 双向长短期记忆网络 迭代空洞卷积网络 

摘      要:在金融行业互联网化的大背景下,受新冠肺炎防控需求影响,以金融为代表的诸多行业,其线下实体业务遭遇巨大冲击,导致各行业发展重心加速向线上平台转移。命名实体识别作为自然语言处理中的基石性技术,在以知识图谱为代表的诸多金融线上业务中应用广泛。金融领域命名实体识别的研究改进,对于国内金融行业线上业务的发展以及金融科技化大数据化有着重要推进作用。中文金融领域的实体识别仍然留存有不少待解决的难关,例如中文金融组织机构实体分词界限不清,没有确定统一的规则等。针对现有模型面向中文金融实体识别效果不佳且训练时间长等问题,本文提出一种BERT-Bi LSTM-IDCNN-CRF模型构架,并主要完成了以下工作:第一部分,主要交代了写作的研究背景与意义,并且从底层构架类型的角度梳理了命名实体识别方法的国内外研究发展情况。第二部分,从实体识别技术在金融领域的运用状况出发,了解该领域下的常用实体和特有实体类别,了解现阶段适用于金融领域的实体识别方法,有针对性地基于现有实体识别算法做出改进,确定算法结构和数据加工流程,建立一个完备的识别方法。第三部分,通过爬虫等不同方法收集金融领域中文文本,使用去噪去重等方法处理加工文本,在完成实体标注后组建实验所需要的训练集与测试集。第四部分,选取Bi LSTM-CRF,BERT-Bi LSTM-CRF等五个主流模型形作为对照组与本文模型展开实验。实验结果证明BERT-Bi LSTM-IDCNN-CRF架构面向中文金融实体的识别能力相较于对比模型有较明显提升。其中,改进模型的识别能力(F1值)相比于BERT-Bi LSTM-CRF模型提高了3.26%,相比于BERT-IDCNN-CRF提高了3.41%。本文的主要贡献在于:(1)使用Scrapy爬虫和搜集竞赛数据集等多种渠道收录大量领域相关数据,在经过数据预处理工作后使用标注精灵助手进行BIO标注,成功建立了中文金融领域命名实体数据集,提供了足够丰富的金融领域实体特征。(2)引入了BERT模型进行预训练,获取特征丰富的词向量。建立Bi LSTM-IDCNN融合特征层,兼顾文本上下文信息和语句的局部特征,整合得到改进模型BERT-Bi LSTM-IDCNN-CRF,成功实现了相对于传统模型在中文金融命名实体领域的识别效果提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分