基于实体语义和邻接信息的知识图谱补全方法研究
作者单位:燕山大学
学位级别:硕士
导师姓名:邹晓红;章德斌
授予年度:2023年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:知识图谱采用统一结构化的方式对真实世界的丰富语义进行表示,能够高效的对事实知识进行管理和分析。目前,知识图谱在信息检索、智能问答和信息抽取等任务中起到了重要的作用,尽管知识图谱中含有海量的三元组,但是仍然存在不完整的情况,如何在已有知识图谱中对缺失的事实知识进行发掘和补充受到了研究人员的大量关注。近年来,在进行知识图谱补全方法研究中,主要是利用知识表示学习的方法来完成的,在对知识表示的过程中,会出现事实知识语义表示不准确的问题,根据上述问题,本文从知识表示学习的实体语义信息捕获和邻接信息融合两方面开展了研究。首先,针对当前知识图谱表示学习模型对知识图谱内实体语义表示不准确的问题,提出了基于实体语义信息建模的知识表示学习模型(Learning semantics knowledge graph embeddings,LSKE)。采用平面编码的显式建模方式,通过横纵两部分向量联合对实体语义进行表示。引入语义映射矩阵对当前训练三元组内的实体特定语义进行捕捉;利用知识图谱关系之间存在的相似性,构建共享语义矩阵,不同的实体通过与共享语义矩阵进行运算,保留实体间的共享语义。其次,针对三元组在表示学习的训练过程中,忽略了三元组中实体的邻接信息,会出现稀疏实体的语义表示不完整的问题,提出了融合实体邻接信息的知识表示学习模型(Learning context semantics knowledge graph embeddings,LCSKE),以及在负采样时产生对训练过程无用的负例三元组问题,提出了以LCSKE模型为基础的邻接信息负采样方法(neighborhood negative sampling,NNS)。LCSKE模型是在模型LSKE基础上,增加了融合实体邻接信息的辅助手段,利用实体稀疏度确定邻接实体数量,并利用实体和关系组建邻接信息,通过门机制完成实体邻接信息融合。邻接信息负采样方法是在负采样阶段,利用邻接信息优先构建对模型有帮助的负例三元组。最后,在已公开的FB15k-237等数据集上进行了链接预测和三元组分类实验,利用相应的评价指标,和已有的知识表示学习模型进行对比实验,验证LSKE和LCSKE模型以及算法的有效性。