咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向开放领域的实体关系抽取方法研究 收藏
面向开放领域的实体关系抽取方法研究

面向开放领域的实体关系抽取方法研究

作     者:赵康 

作者单位:河北科技大学 

学位级别:硕士

导师姓名:高凯

授予年度:2022年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:实体和关系联合抽取 异构图神经网络 开放集分类 深度聚类 持续学习 

摘      要:随着互联网的高速发展,各种各样的事实、常识等知识日益增长。实体关系抽取作为抽取这些知识的核心技术,吸引了越来越多的研究者关注。现阶段实体关系抽取已经用于构建知识图谱、自动问答等诸多场景。然而,目前实体关系抽取技术大多在封闭域的数据上进行研究,并且在现实场景中关系事实的表达方式更加多样,实体关系可能是随时间而不断变化的,且新关系数量仍在不断增长。现有的方法很难解决开放领域下所面临的标注样本少、标注成本高、实体关系种类繁多等挑战。因此,本文面向开放领域,基于深度学习方法进行了实体和关系联合抽取、开放关系检测、开放关系发现以及持续关系学习的相关研究,主要研究内容如下:(1)提出了一种基于表示迭代融合的实体和关系联合抽取方法。现有的研究在提取实体之前很少考虑实体之间可能存在的关系信息,这可能会导致大多数提取的实体不能构成有效的三元组。本文提出将关系信息作为先验知识引入,用于减少对语义无关实体的提取,从而减少对三元组的冗余提取。首先,将句子中的单词和预定义的关系建模为图上的节点。然后,基于异构图神经网络的表示迭代融合将两种语义节点进行迭代语义融合,来获得更适合于关系抽取任务的节点表示。最后,模型利用最终更新的节点表示进行关系抽取。本文在两个公开的关系抽取基准数据集NYT和Web NLG上评估了提出的方法。实验结果表明,该方法能够有效地抽取实体关系三元组,并在两个数据集上优于最新的方法。此外,提出的方法也适用于关系分类任务,在Sem Eval 2010 task 8数据集上其性能比以往的方法有显著提升。(2)提出了一种基于动态阈值的开放关系检测方法。现有的关系分类方法在处理没有先验知识的未知关系时存在局限性。本文通过动态阈值检测未知关系的同时对已知关系进行准确分类,其中阈值由样本自身的特征生成。首先,模型根据输入的句子和注释的实体将其编码为关系表示向量。然后,通过拼接关系表示向量和关系嵌入,经过多层感知机输出的未归一化的概率。最后,通过拼接关系表示向量和零向量来生成动态阈值,未归一化的概率将与该阈值进行比较,使用该阈值确定输入实例是否属于未知类。此外,为了获得更好的动态阈值学习效果,采用流形混合和实体边界滑动两种负样本生成技术,使阈值学习对开放关系样本具有更强的鲁棒性。在两个基准数据集上进行的实验表明,该方法的性能明显优于目前的先进方法,并具有较强的鲁棒性。(3)提出了一种基于自加权损失的开放关系抽取方法。最近的开放关系抽取工作利用从标记数据中学习到的关系语义知识来聚类无标记的关系实例。然而,这些知识通常没有被充分利用,而且在转移到另一个领域时表现得很差。为此,本文提出一种半监督学习范式,该方法利用度量学习从标记数据中学习关系语义知识,然后通过对无标记数据的无监督学习来识别新的关系。首先,编码器是预先训练的,它利用标记数据中的关系实例来学习关系表示。此外,为了更好地学习关系表示,提出了一种基于对的自加权损失算法。利用自调整梯度作为权重挖掘信息实例。然后,将从无标签数据中抽取的关系表示用k-means聚类得到伪标签。最后,对伪标记数据交替进行聚类和度量学习。在三个基准数据集上进行的实验结果表明,Semi ORE可以显著超过最先进的基线,并在不同领域展示出强大的知识转移能力。(4)提出了一种基于一致性表示学习的持续关系抽取方法。现有的基于记忆的持续关系抽取方法往往会过度拟合记忆样本,并且在不平衡的数据集上表现不佳。本文在回放记忆时通过对比学习和知识蒸馏来保持关系嵌入的稳定性。具体地,首先使用基于临时记忆的监督对比学习来训练每个新任务,以便模型可以有效地学习关系表示。然后,对记忆库中的样本进行对比回放,通过记忆知识蒸馏使模型保留历史关系的知识,防止旧任务的灾难性遗忘。所提出的方法可以更好地学习一致性表示,以有效地减轻遗忘。在Few Rel和TACRED数据集上的实验结果表明,本文提出的方法明显优于最先进的基线,并且在不平衡的数据集上产生了很强的鲁棒性。实验证明本文提出的方法在相应的研究内容上均取得了较优的性能,通过解决开放域场景下存在的核心科学问题,促使基础研究成果走向应用。提出的研究方法可赋能构建知识图谱和知识驱动的自然语言处理,并为人机交互的深入研究奠定基础。在本文的最后也总结了在研究过程中遇到的问题以及对未来工作的展望。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分