面向科技服务领域的异构数据汇聚系统的研究与实现
作者单位:北方工业大学
学位级别:硕士
导师姓名:丁维龙;王勃
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:科技服务业是基于信息网络、运用现代科技知识和技术,向社会提供服务和支撑的产业,对科技创新起着重要的作用。当前科技服务业在发展与运作中会伴随着大量的科技资源案件产生。案件是根据企业用户提出的需求,由中介角色对该需求进行相应建模设计所生成的实体。在科技服务业中存在着大量案件,而每个案件中含有许多相关联的数据,例如从科技服务平台中用户提出案件需求后,到科技中介完成并交付该案件的整个流程会产生包括科技案件资源、科技专利资源和科技信息服务资源等。这些资源、信息和数据存在多源异构、体量大和价值密度低等特征,若想高效利用上述数据,需要对数据进行汇聚处理。本研究中汇聚分为异构数据集成与关联发现两部分,对数据进行集成处理时候发现科技服务业中存在众多实体,并且关联复杂、耦合性高的问题,导致多方面共同管理数据困难。对此本文提出了面向科技服务领域的数据清洗和元数据管理方案,并使用图数据的方式来管理数据,使得数据之间的关系清晰可见,便于关联与呈现。 本文建立异构数据汇聚系统,基于大数据与知识图谱等工具,从异构数据源中汇聚出高质量数据。本研究同时兼顾满足数据汇聚全流程的流畅性,以实现对科技服务业数据快速有效的组织管理。针对以上问题与需求,本文的主要研究工作如下。 (1)关于科技服务领域中多元异构数据集成时的实体间关联复杂、耦合性高的问题导致的问题,本文将数据划分为结构化、时序数据和非结构化数据。并针对不同类型数据提出数据集成的解决方案,之后对这些数据设计专用的数据清洗方案。 (2)针对数据关联性差与语义不一致的问题,设计了数据组织形式和映射到图中的方法,以便于更好的“图化。对数据中的不同实体部分设计了科技服务的本体模型以完成数据的模型化。然后设计整套知识图谱构建方法,借助映射工具,设置映射的条件规则,以供实例数据映射到科技服务本体模型中。 (3)实现了科技服务异构数据汇聚原型系统。实验和案例表明,该集成管理方法和本体模型及构建方法,能有效解决科技服务领域多源异构数据集成和关联性建立问题。