咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向裁判文书的文本分类算法研究 收藏
面向裁判文书的文本分类算法研究

面向裁判文书的文本分类算法研究

作     者:刘海顺 

作者单位:大连理工大学 

学位级别:硕士

导师姓名:孙媛媛

授予年度:2020年

学科分类:0301[法学-法学] 03[法学] 030106[法学-诉讼法学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:文本分类 智慧司法 案例信息抽取 案件要素识别 量刑预测 

摘      要:随着我国司法机关不断推进案件信息公开,海量的裁判文书得以出现在互联网上,这些裁判文书蕴含了丰富的信息,对其进行挖掘将产生巨大的价值。在大数据和人工智能发展的背景下,智慧司法研究日趋火热,该研究主要以裁判文书为数据基础,以自然语言处理为技术基础。裁判文书具有非结构化、格式固定、语言精确等特点。作为自然语言处理基础任务之一的文本分类,在通用领域和各垂直领域具有广泛的应用。本文在现有经典文本分类算法的基础上,研究了智慧司法领域的案例信息抽取、案情要素识别和量刑预测等三个典型任务,并基于任务和数据特点对现有算法进行了改进。本文工作对于自然语言处理研究内容的拓展和智慧司法研究方法的改进具有现实意义。针对裁判文书数据的案例信息抽取问题,提出了基于BiLSTM-Attention的裁判文书字段分类模型。首先通过规则对裁判文书的内容进行字段划分,接着在人工校对结果的基础上构建字段分类数据集,然后训练针对裁判文书特定字段的文本分类模型,最后使用训练好的模型对非结构化的裁判文书进行字段划分,从而实现对裁判文书的粗粒度案例信息抽取。实验结果表明,本文方法在案例信息抽取上可以达到98%的准确率。针对民事案件的案情要素识别问题,提出了基于预训练语言模型的多标签文本分类算法框架。该框架采用基于Layer-attentive的BERT多层特征融合方法进行文本编码,可以有效提取深度文本特征。采用序列生成的策略输出预测的标签结果,能够有效捕获标签间的依赖关系。基于法研杯2019的数据集进行实验,本文方法取得了72.2的平均F1值。针对刑事案件的量刑预测任务,提出了融合罪名和法条信息的可解释量刑预测模型。该模型以语言模型为基础,输入的第一部分为案件事实,输入的第二、三部分是罪名和法条的描述,输出是整合的三部分的隐层表示,最后是分类层。本文方法在法研杯2018数据集上进取得了0.392的F1值,在PreSent数据集上取得了0.453的F1值。实验结果表明罪名和法条能够起到提升准确率和增强结果可解释性的作用。本文基于文本分类算法,研究了案例信息抽取、案情要素识别和量刑预测等内容,分别有针对性地提出了任务导向的框架和对现有算法的改进。本文研究成果丰富了自然语言处理的研究内容,改进了智慧司法的研究方法,有助于解决司法领域的实际问题,帮助法律工作者更好地工作。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分