面向科技服务领域知识融合方法的研究与应用
作者单位:北方工业大学
学位级别:硕士
导师姓名:刘晨;孙为群
授予年度:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:在科技服务行业中,利用科技知识为各产业领域提供定制化服务是核心任务。这些领域的知识大多以多种文档形式存在,散落且分散。通过从这些文档中抽取并融合知识,能够构建出针对特定领域的科技服务知识库,从而满足各领域对科技服务的个性化需求。面对众多需要科技服务的产业领域和多样化的文档来源,如何有效利用新一代信息技术来整理和融合这些领域的大量知识,成为了一个迫切需要解决的问题。本文提出了一种能持续从多样化、多类型的文本记录中抽取并融合知识,最终形成领域知识图谱的在线知识融合方法。该方法可以为各产业领域提供科技服务,其自动化构建方式有效应对了科技数据日常增长、数据量大和来源多样的问题。电力领域是需要科技服务的关键领域,以电力领域运行维护服务为例,本文应用知识融合方法构建了电力维护领域知识图谱,并将知识图谱应用于知识在线抽取、融合、问答系统中,通过知识问答的方式为电力行业维护检修人员提供了决策支持。本文的主要贡献包括: (1)针对科技服务行业下领域资源文本实体稀疏分布、实体边界识别困难、实体关系三元组重叠较多的问题,本文提出了融合Ro BERTa-wwm-ext-Bi GRU模型和指针标注方法的知识抽取算法对科技服务的领域文本进行实体关系联合抽取。针对文本中实体稀疏分布的问题,在模型编码器模块将预训练模型与Bi GRU相结合,使得模型能更好地捕捉到文本句子中的长距离依赖关系。针对文本中实体关系三元组重叠较多的问题,采用指针标注的方式直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。实验表明该方法在应对科技服务资源文本抽取时表现良好,能有效解决三元组重叠问题。 (2)针对科技服务行业下领域资源来源广泛,实体描述方式各有不同,实体描述文本过短的问题,本文提出一种知识融合模型。该模型采用基于Ro BERTawwm-Bi LSTM的孪生模型进行候选实体生成,经过双向长短期记忆网络充分利用待融合实体文本和实体提及文本的特征信息,通过引入注意机制捕捉句子内部相互依存的特征,从而在实体描述文本中找出最关键的特征点以应对科技服务资源实体描述文本过短的问题。由于句子间的交互程度较浅,因此增加一个基于ALBERT的模型做候选实体重排序,并采用NIL标签法进行不可链接预测。实验表明该方法在应对科技服务资源知识融合时表现良好。 (3)通过整合科技服务行业下电力领域的知识,本文构建了一个专注于电力设备故障的知识图谱,并将其应用于知识在线抽取、融合、问答系统。该系统能够自动从文件中提取实体关系并将其融合进知识库。此外,系统能够利用知识图谱生成提示语,进而在问答模块中使用这些提示语为用户提供高质量的服务。