面向新闻舆情的案件要素抽取及案件相关性分析方法研究
作者单位:昆明理工大学
学位级别:硕士
导师姓名:余正涛
授予年度:2020年
学科分类:050301[文学-新闻学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0503[文学-新闻传播学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:案件领域 案件要素 图卷积 联合学习 相关性 孪生网络
摘 要:在“智慧法院战略背景下,国家对于涉法涉案领域的文本理解提出了新的要求,如何让机器自动理解法律领域的自然语言文本并作出相应处理成为了迫切需要解决的难题。本文研究案件要素抽取及新闻与案件的相关性分析,旨在从法律文书和新闻文本中抽取案件要素,并在此基础上分析新闻与案件的相关性,从而为更深度的法律领域文本理解提供保证。其面临的关键问题在于如何根据案件要素的特性从法律文书与新闻文本中抽取案件要素;如何借助案件要素提高新闻与案件相关性分析的准确率。针对现有方法没有针对案件要素和法律领域文本的特点进行案件要素抽取,且没有针对新闻与案件描述的差异性对其进行相关性分析,本文对案件要素抽取及新闻与案件的相关性分析展开研究,主要完成了以下特色工作:(1)提出了语料构建的方法,构建了实验所需的语料。通过基于Xpath的网络爬虫技术从互联网采集新闻,通过规则从法律文书中生成案件要素知识库,通过标注技术和远程监督方法获得标注语料,为后续的实验提供数据准备。通过规则对裁判文书网中的17191篇文书进行解析与清洗,得到案件要素4311组,构建为案件要素知识库。通过远程监督的方式爬取新闻文档3449篇,以句为单位从中构建数据集。通过分析近年来的热门新闻,本文选择了13个热门案件,爬取与案件相关的新闻4513条。通过建立新闻与案件相关关系,得到新闻-案件对应数据4607对。(2)提出了一种基于案件领域相关性与依存图卷积的案件要素联合抽取方法。案件要素是对案件相关的事件的简要描述,对于案件领域自然语言处理任务具有指导意义。针对案件要素的案件领域相关性和内在关联性,本文利用双向循环神经网络对句子上下文信息建模,从而对案件领域相关性预测,通过与案件领域相关性预测的联合学习保证所抽取要素的案件领域相关性;通过图卷积神经网络对候选要素的依存关系进行建模捕捉到其内在的关联性,最终提高了新闻文本案件要素抽取的准确性。实验表明本文所提出方法的准确率比基线模型提高了6.6%,具有有效性。(3)提出了基于非对称孪生网络的新闻与案件相关性计算方法。新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,可转化为新闻文本与案件文本的相似度计算任务。借助孪生网络计算文本相似度是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,本文通过计算文本中句子与标题的相似度选取与新闻标题最相关的句子表征文档,去除新闻文本中的冗余句子,利用非对称孪生网络建模,考虑到案件要素蕴含案件的关键语义信息,将案件要素作为监督信息融入到非对称孪生网络中对新闻文档和案件描述进行编码,解决新闻和案件在结构和语义上不平衡的问题,最终实现新闻与案件的相关性判断。实验表明本文提出的模型在此任务上比基线模型更适用于本任务,准确率提升了2.5%。(4)为了满足国家对于“智慧法院舆情监控系统的战略需求,本文通过软件工程的方法进行了原型系统的设计与搭建。该系统从网上收集新闻数据,通过要素抽取模型和新闻案件相关性分析模型构建案件与新闻的对应关系,并向用户进行展示。