金融领域文本序列标注与实体关系联合抽取研究
Research on Text Sequence Tagging and Joint Extraction of Entity and Relation in Financial Field作者机构:武汉大学信息管理学院湖北武汉430072 武汉大学信息资源研究中心湖北武汉430072
出 版 物:《情报科学》 (Information Science)
年 卷 期:2021年第39卷第5期
页 面:3-11页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 120502[管理学-情报学]
基 金:国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”(71673209)
主 题:关系抽取 联合抽取 文本序列标注 BERT BiGRU
摘 要:【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)的基础上结合双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关系的识别。