咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于半结构化数据的领域知识图谱的构建与应用 收藏
基于半结构化数据的领域知识图谱的构建与应用

基于半结构化数据的领域知识图谱的构建与应用

作     者:陈迪雅 

作者单位:北方工业大学 

学位级别:硕士

导师姓名:赵卓峰

授予年度:2024年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:领域知识图谱 实体抽取 关系抽取 

摘      要:近年来随着知识图谱技术和应用的发展,其与各行业领域的融合成为一个重要趋势。领域知识图谱能够对各领域数据进行整合和利用,帮助企业和研究机构更好地理解和分析数据,提高工作效率和决策准确性。领域应用所涉及的知识体系往往是封闭的,其数据来源是有一定边界的,知识概念专业性较强,从而使得领域知识图谱体现出概念层次较深粒度细、质量要求高、推理链条较长等不同于通用知识图谱的特点。此外,对于领域知识图谱来说,当前其数据来源主要有以结构化的方式存储于私有数据库的数据和经领域专业人员整理公开发布在互联网上的半结构化数据两类。因此,本文将结合一个慢病饮食知识管理项目中提出的领域知识图谱构建需求,并主要围绕开放的半结构化数据,针对领域知识图谱上述特点下的相关问题开展研究,并具体设计和实现一个相应的领域知识图谱原型系统。本文工作的具体贡献如下: (1)结合领域数据的特征,提出一种基于领域本体模型的数据统一处理方法。方法包含了网页区域文本相似度计算、网页正文抽取器模板生成,以及键值对形式的统一存储等内容,可实现针对本文需要的不同数据来源的网页半结构化数据的自动化采集、抽取和规范化存储,在后续领域知识图谱构建中,提高了数据获取速度和存储效率。 (2)针对领域专业术语复杂,长实体较多,出现实体抽取不全的问题,利用领域实体大都具有一定的通用特征情况,提出了一种基于多特征融合的BERT-Transformer-CRF(Bar-Tp)命名实体识别技术的方法。该方法可融合字形、拼音及部首特征,以实现更准确的慢病饮食领域实体抽取。在公共数据集和本文构建的慢病饮食领域数据集上进行了验证对比,证明了模型的有效性,验证了性能的提升,又通过消融实验证明了模型各个模块的作用。 (3)针对领域文本数据中存在的一个语句会包含多个实体,对应多个实体关系对,出现关系抽取不全的问题,提出一种结合Conv LSTM神经网络的关系抽取方法。方法采用RBERT-Conv LSTM模型,通过预训练语言模型与深度学习模型结合的方式,BERT双向编码器捕获文本中的深层次上下文信息,Conv LSTM在时间序列数据中捕获文本的局部特征,来提高关系抽取的性能。在公共数据集和本文构建的慢病领域数据集上进行了验证对比,证明了模型和有效性,验证了性能的提升,又通过消融实验解释了模型各个模块的作用。 (4)结合慢病饮食知识系统项目,利用Neo4j构建了慢病知识图谱数据库,研发设计了慢病饮食领域知识图谱管理系统。该系统实现了基于redis数据库的数据源管理,集成了实体抽取和关系抽取模块,提供了实体查询、关系查询以及图谱管理等功能,支撑了慢病饮食健康咨询和饮食推荐等实际应用功能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分