融合度信息语义位置注意力和双重类型嵌入的GCN关系抽取方法
作者单位:昆明理工大学
学位级别:硕士
导师姓名:李卫疆
授予年度:2023年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:关系抽取 类型关系 注意力机制 句法依赖树 图卷积神经网络 关系重叠
摘 要:实体关系抽取是自然语言处理的核心技术之一,它可以帮助我们更好地分析和提炼出句子中的实体,并且可以帮助我们更准确地推断出它们之间的语义联系。近年来,许多学术界人士已经开始探索联合抽取的方法来进行关系抽取的研究。在当前的研究中,联合抽取在一定程度上避免了流水线关系抽取方法中存在的误差传播和交互缺失问题,但仍然无法解决处理关系重叠和语义特征表示不足的问题。针对以上问题,本文研究提出基于融合度信息语义位置注意力和双重类型嵌入的GC N(Graph Convolutional Networks,GCN)关系抽取方法,利用句子所包含的位置信息和辅助信息对句子的向量表示进行改进,然后通过GCN提高模型的学习能力以得到更好的关系抽取性能。本文的主要研究如下:构建融合度信息的语义位置注意力机制。句法依赖树能够清楚地表示句子中词语与词语之间的逻辑关系,因此,我们可以用句法依赖树提取句子中的各个词语对给定的实体词在句法依赖树中的相对位置距离,来构建一个位置向量,进而计算单词的影响权重来判断单词的重要程度。在此基础上,结合句法依赖树中隐式的“度信息,以考虑到不同节点对连接边的影响。共同考虑改进的依赖树和语义位置的影响,进一步达到降噪的目的。面对现有关系抽取方法大多都忽略的long-tail造成的语义特征不足的问题,本文提出利用GCN的聚合性和句子间的相似性,聚合相似句子的隐含高阶特征信息,通过关系实例数据多的关系类型来帮助识别关系实例数据少的关系类型,提高模型的学习能力,进一步提高关系抽取的效率。利用句子所包含的实体类型信息和关系类型信息优化输入向量,本文将实体类型信息和关系标签信息合并到句子嵌入中。在一个句子中一个实体可能有多个类型标签,同时并非所有关系标签对句子中的单词都具有同等重要性,所以需要通过类型感知注意力机制来选择出最有可能的实体类型标签和区分不同关系标签对句子中每个单词的重要性。不仅能提高关系抽取的准确性,还能捕捉到实体和关系之间的交互作用。本文提出的模型在数据集New York Times(NYT)和Web NLG上进行实验验证,在NYT和Web NLG上的F1值分别为92.4%和91.1%,是所有比较模型中表现最好的。结果表明提出的模型能够有效解决关系抽取中存在的问题,并能够有效提升关系抽取的正确性。