面向金融领域的事理图谱构建关键技术研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:黄虎杰
授予年度:2020年
学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:传统的知识图谱大多关注实体的属性与关系知识,而忽视了事件间的演化规律知识,为了弥补这一不足,研究者们提出了事理图谱的概念。事理图谱中的节点是高度泛化的事件,边是事件间的演化关系,例如因果关系与顺承关系。自然语言处理技术的发展使得信息抽取的准确率得到提升,也使得从文本中自动挖掘事理知识、构建事理图谱成为可能。本文从金融领域入手,对事理图谱自动构建的关键技术展开研究,具体内容包括端到端的事件因果关系抽取、常识信息增强的事件表示学习以及数据驱动的因果关系强度计算。事理知识的获取是构建事理图谱的基础,本文针对事件间因果关系的获取进行了探索。本文将事件因果关系抽取建模为序列标注任务,提出了基于预训练模型的因果抽取方法,以端到端的方式同时进行因果关系的识别与相关事件的抽取。为缓解有标注数据不足的问题,本文进一步提出基于噪声模型的半监督学习方法,利用大量无标注数据提升因果抽取的效果。中英文两个因果抽取数据集上的实验结果证明了该方法的有效性。事件是事理图谱的核心元素,为了更好地建模事件语义,本文提出了常识信息增强的事件表示学习方法,使学习到的事件表示中融入意图、情感、实体关系等常识信息,以更好地帮助事理图谱的构建以及在其他任务上的应用。事件相似度、脚本事件预测、股市预测等多个任务上的实验结果表明我们的方法可以更准确地建模事件语义,并提升下游任务上的效果。为了更好地建模事件间因果关系的强度,本文探索了基于统计与基于预训练模型的因果强度计算方法,从大量因果事件对中自动学习因果强度信息。COPA因果推理数据集上的实验结果表明,预训练模型可以有效地从大量因果事件对中学习因果知识,并准确地建模因果关系强度。最后,本文基于上述研究成果设计并实现了金融领域事理图谱构建系统,并在大规模金融语料上构建了包含数百万事件与因果关系的事理图谱,验证了本文提出的事理图谱构建方法的可行性。