咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向中文阅读理解篇章关系研究 收藏
面向中文阅读理解篇章关系研究

面向中文阅读理解篇章关系研究

作     者:郭校金 

作者单位:山西大学 

学位级别:硕士

导师姓名:吕国英

授予年度:2023年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:篇章关系 隐式论元识别 隐式篇章关系识别 图神经网络 

摘      要:随着自然语言处理领域中研究对象的转移,许多研究者着眼于句子、片段等更大语义层面上的研究,侧重于理解文本片段的整体结构和内部成分的语义关联,并且作为机器翻译、问答、事件抽取等的基础性任务,篇章分析尤为重要。而作为篇章分析的基础任务,篇章关系研究在近些年来逐渐成为研究热点。篇章关系研究旨在研究文本内部论元间(句子、复句、句群等)的语义关系,并对此展开一系列研究。篇章关系是篇章分析任务的基础性研究,也是篇章分析的关键。此外,篇章关系对阅读理解任务有指导作用,然而目前缺乏相关数据集。因此,本文围绕阅读理解的相关语料对篇章关系展开相关研究。本文研究内容主要包括以下三个方面:(1)面向阅读理解篇章关系数据集的构建针对目前缺乏中文阅读理解篇章关系数据集的问题,本文构建了面向阅读理解篇章关系数据集。本文基于中文篇章关系语义体系,通过自然语言处理工具包对阅读理解篇章进行语句切分处理,然后从中识别篇章关系,确定标注的信息(包括论元、篇章关系的语义类型、显隐式篇章关系等),并且制定了相应的标注流程,确保所标注数据集的准确率和标注的效率。本文标注了331篇阅读理解篇章,存在5996类篇章关系,标注结果的Kappa值大于0.7表明了本文所构建数据集的有效性。(2)基于二分图结构的隐式论元识别中文隐式论元识别旨在无显式连接词的前提下识别论元间的界限。目前关于论元识别的相关研究大都集中于研究显式论元识别。因此本文着重研究隐式论元识别,并且提出了基于二分图结构的隐式论元识别方法。本文借鉴命名体识别的方法对论元识别展开研究。首先通过预训练语言模型对论元对论元进行编码处理,然后通过二分图结构神经网络训练论元内部各个部分的关联特征,最后通过条件随机场得到论元的标签序列。本文在自建的数据集上展开实验,结果显示论元识别的F1值高于基线模型,从而验证本文方法的有效性。(3)融合词语语义和标签依赖的隐式篇章关系识别中文隐式篇章关系识别旨在推断出两个论元间的篇章关系类型。然而,现有的方法往往忽略了论元中词语所蕴含的关键信息,并且仅考虑单个层级内的篇章关系类型,而忽略了各层级间篇章关系的依赖关联。因此,本文提出了融合词语语义和标签依赖的方法以序列生成的方式实现篇章关系识别。首先,根据相似度权重将词向量嵌入到字编码表示中,应用字词对齐注意力机制强调关键字、词信息。接着采用标签注意力编码从蕴含词语语义的论元表示和篇章关系表示中获取篇章关系依赖性的上下文表示,以自下而上的方式预测顶层的篇章关系类型。本文在自建的阅读理解篇章关系数据集上展开实验,结果显示隐式篇章关系识别的准确率和F1值分别达到74.19%和73.81%,最终验证了该方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分