突发事件抽取和演化关键技术研究
作者单位:电子科技大学
学位级别:硕士
导师姓名:刘丹
授予年度:2021年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:突发事件会对生命财产安全、公共秩序以及社会环境造成伤害,因此亟需对突发事件建立信息抽取体系,从非结构化的文本中提取出事件的结构化信息和蕴含的关系,以快速认识突发事件的信息和演化过程,为应急决策领域提供数据和技术支持。本文根据突发事件特点将其分为事件发生类、事件描述类、事件影响类和事后处理类四类,提出了一种适用于描述突发事件的事件表示框架,并基于该框架对突发事件的抽取和演化关键问题展开研究。主要研究内容如下:(1)提出一种基于未知触发词的事件句识别方法。为提高对语义特征的学习效果,采用BERT预训练模型将中文句子中的字映射成字向量,并加入句法和词性特征作为输入,通过CNN提取词级特征,Bi-LSTM和注意力机制提取整个句子序列的语义特征来提高事件句的识别率,通过对比实验验证了本方法的事件识别效果。(2)提出了一种融合实体特征的事件要素抽取方法。利用实体与事件要素间的关系,在字向量的基础上加入实体特征向量作为输入,通过Bi-LSTM和CRF提取序列特征来标注事件句中的要素。(3)基于句法分析和事件表示框架,对事件要素抽取不完整的情况提出了补全算法。根据事件句中的要素间依存句法关系,设计要素补全规则和算法,为事件的联合分析及演化分析提供了更完整的信源。(4)针对突发事件领域的事件间关系,提出了一种融合事件句间关联特征及关系模式信息的抽取模型。将两事件句按顺序拼接后进行联合编码提取两事件句间的关联特征,然后融入事件对的关系模式特征帮助关系分类,突破了独立地对两个事件句做特征提取的局限性,进一步提升了事件关系抽取的效果。(5)为弥补事件关系在突发事件演化分析中的不足,提出了一种基于双注意力的突发事件演化关系抽取模型。分别对情景要素和事件与其所在句做注意力计算,捕捉情景要素与事件的关联特征,分析情景要素对突发事件的影响作用,以更全面地分析事件演化发展方向和机理,为事件发展趋势预测提供依据。最后完成了验证系统的设计与实现,融合多种针对事件文本的模型结果,实现数据的可视化,帮助人们更直观地看到事件信息和演化过程。