咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于关系图谱的科技人员大数据分析 收藏
基于关系图谱的科技人员大数据分析

基于关系图谱的科技人员大数据分析

作     者:张寒烁 

作者单位:北方工业大学 

学位级别:硕士

导师姓名:杨冬菊;王晖

授予年度:2020年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:关系图谱 数据分析 图谱构建 人员关系图谱 数据挖掘 

摘      要:随着计算机技术的发展,“互联网+时代的网络数据量呈爆发式增长。在科技创新与科技管理改革的过程中,各个科技部门积累了大量科技项目的申报、评审和过程管理等科技管理数据,这些数据既包含元数据为主的结构化数据,也包括申报书等非结构化数据。对数据的挖掘与深度利用是近年来的研究热点,尤其是对数据之间关系的挖掘更利于拓展数据价值。以科技管理过程中的评审专家抽取为例,在数据抽取时不仅仅需要考虑专家的领域、职称、单位等信息,更重要的是要回避一段时间内有过项目合作、成果合作以及具有同单位、前同事等关系的专家。对于科技数据中包含的各类关系,如何识别、获取并对其进行关联关系分析是要解决的关键问题。目前,诸多数据分析系统均基于关系数据库。关系数据库对于关联关系分析问题存在诸多缺点,包括执行效率低、算法设计复杂等等。因此,本文在目前广泛使用的基于关系数据库的数据分析系统的基础上引入了关系图谱,利用关系图谱基于欧拉图论这一模型的优势,解决关系数据库下关联关系分析效果不佳的问题。本文基于关系数据库以及图数据库,重点解决了以下问题:1、对源数据进行信息抽取过程中的实体识别问题;2、关系图谱数据更新过程中的实体及属性的冲突检测与消解问题;3、针对数据分析需求,解决关系图谱数据分析过程中专家抽取、团队关系分析两种分析需求的算法及应用问题。结合实际需求以及上述重点解决的问题,本文在已有的基于关系数据库进行数据分析的基础上,结合引入的图数据库,做出的主要贡献如下:1、提出了一种结合词频的实体抽取策略,进行信息抽取;2、针对实体更新过程中的冲突问题提出了实体相似性比对算法;3、提出了两种图谱数据分析方法,包括属性重复比较以及关联关系分析;4、在此基础上,结合Hadoop大数据平台,设计并实现了一套基于关系图谱的科技数据分析系统,本文采用的设计流程与实现方法对此类问题的研究有一定的使用价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分