基于知识图谱的学者信息聚合平台的设计与实现
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:宋胜利;王泊涵
授予年度:2021年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:学者知识图谱 Spark朴素贝叶斯分类器 聚合查询平台
摘 要:知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图。本文面向高校学者领域,针对学者领域非结构化信息来源不统一、形式多样杂乱,导致学者关系模糊,在获取学者信息时定向性不够等问题,对学者信息进行统一建模,挖掘其中隐含的关系,形成学者知识图谱,并提出一种智能查询算法,进而对学者知识图谱和查询算法进行整合,搭建出学者信息聚合查询平台,增强信息获取的定向性,提高传统查询方式的正确率,满足查询方式的多元化并具备一定的容错性,方便企业、高校或其他用户有针对性地了解学者信息,快速找到符合自己研发需求的学者来进行辅助指导,从而为企业、高校等生产应用做出了有意义的研究探索。本文所作的工作主要分为以下三个部分。(1)学者知识图谱的设计与存储。通过对获取的文本数据进行分析,结合自身需求定义实体属性及其关系来确定学者知识图谱的模式结构。考虑到目前一些自动化的知识抽取方式应用在学者文本信息中的针对性不够高,抽取的效果不是很理想,所以结合人工定义规则的方式,根据文本内容总结规律,构建出实体属性和关系的抽取规则,进行基于规则的属性、关系抽取。针对利用关系型数据库进行数据存储时,存在学者实体关系的存储和检索方面性能较差,数据库进行维护时效率低下等问题,本文利用图数据库Neo4j对获取的学者知识进行存储,减少关联表的使用,构建出学者知识图谱。通过实验验证了本文基于规则的知识抽取方法的准确性,并且所构建的知识图谱具有可行性,为下面的查询平台搭建提供数据库基础。(2)基于自然语言问句的智能查询算法设计。该查询算法通过对提出的查询问句进行语义分析,准确识别查询意图,改善由于检索词应用不当而造成的查询结果产生偏差的情况。意图识别采用问题分类匹配问题模板的方式,结合实际情况定义了六类问题模板和相应的六类Cypher查询语句生成模板,并预设常见问题的表达语句及其特征词作为训练样本。针对分类器训练耗时过长,分类效率低下的问题,引入SparkMLlib机器学习组件结合朴素贝叶斯分类算法来训练问题分类模型。用查询问句经过语义分析和问句分类后获得的关键词及分类标签来生成Cypher查询语句,进行查询并返回结果。进行对比实验验证本文提到的问题分类模型的准确性以及训练耗时性能,实验结果表明,当数据规模较大时,基于Spark的朴素贝叶斯分类器能提高训练的速度以及分类准确性,从而提升查询结果的准确度和可信度,为下面的查询平台搭建提供算法基础。(3)学者信息聚合查询平台设计与实现。基于上面构建的学者知识图谱以及设计的智能查询算法,通过需求分析和框架设计,使用Springboot框架进行搭建,实现一个前后端分离的查询平台。该平台满足通过具体的实体名称的精确查询或基于自然语言问句的模糊查询,实现查询结果以及实体关系拓扑图的可视化展示。通过实验对平台的功能进行验证,同时检验查询平台的可行性和实用性。