金融领域的篇章级事件抽取技术研究与实现
作者单位:北京邮电大学
学位级别:硕士
导师姓名:李蕾
授予年度:2023年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:当前金融领域的文本数据量庞大,快速提取文本中的事件相关信息有助于人们快速掌握金融活动概况。目前更多的金融文本数据是以长篇幅文本形式来呈现,传统的句子级事件抽取方法在篇章级金融文本上的表现较差。基于此情况,近些年有不少应用于金融文本的篇章级事件抽取的相关研究工作出现。篇章级事件抽取的目的是从文档中抽取出结构化且完整的篇章级事件信息,主要提供的是句子级事件抽取方法所缺乏的解决事件元素分散和多事件问题的能力。本文针对这些问题,在面向金融文本的篇章级事件抽取任务上进行了以下研究工作:1)本文提出了融合长文本信息的事件元素抽取算法。在篇章级文本中,文本编码的效果对于改善事件元素抽取的性能十分重要。其中的主要问题是如何将篇章级文本的信息整体编码,以及如何将句子间的信息进行融合。现有方法没有考虑不同粒度金融文本的信息量差异。本文在长短期记忆网络和条件随机场这种传统命名实体识别方法的基础上,通过门控机制的引导将单句编码信息和多个句子的编码信息进行融合,引导模型学习泛化度更高的知识。实验结果表明所提出的算法能有效改善金融文本篇章级文本事件元素抽取的效果。2)本文提出了融合实体信息的篇章级文本编码算法。不同于句子级文本的信息编码,篇章级文本的篇幅较长,无法整体送入模型同时编码。但在对整篇文本进行事件抽取时,需要得到整篇文本的信息,例如句子间的前后关系和各个事件元素间的位置关系。现有方法没有考虑实体提及间的依赖信息,本文为实体提及设计了位置关系和指代关系,并融合实体提及间的关系信息指导文本编码,实验结果表明所提出的算法能有效提升金融文本篇章级文本的编码效果。3)设计实现了一个金融文本篇章级事件抽取实验系统。在前述算法研究基础上,本文基于B/S架构设计实现了一个篇章级金融文本的事件抽取系统,该系统拥有上传文本,完成文本中的事件信息抽取,并结构化展示事件信息的功能。