医疗健康领域小样本关系抽取方法研究及应用
作者单位:西安工业大学
学位级别:硕士
导师姓名:荆心;韩召宁
授予年度:2024年
学科分类:1001[医学-基础医学(可授医学、理学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:医疗健康 小样本学习 隐式信息 关系分类 多粒度信息融合
摘 要:医疗领域作为一个充满知识与技术的领域,其进步直接影响着公众的健康和生活品质。然而,由于医疗数据的稀缺性和隐私敏感性,医疗训练数据相对稀少,传统的大样本关系抽取方法在实际应用中面临着严重的挑战。针对医疗健康领域的小样本关系抽取任务是自然语言处理的一个分支,该任务能够从有限且个性化的医疗数据中提取有意义的关系信息,对于医学研究、诊断决策和个性化治疗方案的制定具有重要推动作用。基于以上背景,本文对医疗健康领域小样本关系抽取进行了大量研究。本文的研究工作主要包含以下几个方面: (1)目前许多小样本关系抽取模型在一般领域数据集上表现良好,但在医学领域的性能显著下降,这是因为通用的小样本学习方法提取信息单一。为解决这一问题,本文设计了小样本关系抽取模型ECFS,其中提出了多粒度信息融合的方法。该模型从句子中提取粗粒度信息,即通用特征向量,同时从KG中提取细粒度信息,包括实体描述信息和概念语义信息。随后,通过将这两种信息进行融合,并引入非参数估计层进行模型训练。经过实验证实,本文介绍的ECFS模型在小样本数据集上相对于当前基线模型的效果提升约2.5%。这表明了本文提出的多粒度信息融合模块能够有效提升医疗小样本关系抽取的准确率,进而更有利于医疗健康知识的挖掘。 (2)过去的小样本关系抽取方法主要关注于实例级别的语义信息,而对于医疗文本而言,概念知识的重要性不容忽视。为解决这一问题,本文提出了一种利用概念知识和梯度信号提升预测效果的方法。本研究引入了概念知识学习器和梯度信号更新器。前者的目标是通过推断支持集中各实例的概念描述,从而推导出每种关系类型的语义。后者则旨在通过双线性评分函数和三元组损失函数学习概念描述与概念知识之间的关联,并在转移到查询集之前通过梯度信号更新概念知识。本文在之前的ECFS模型基础上添加了隐式信息匹配模块,并进行了消融实验。结果显示,在10-way 1-shot情境下,引入隐式信息匹配模块后,分类准确率提升了约1.8%。这突出了隐式信息在医疗健康小样本关系抽取中的关键作用。弥补了以往研究仅关注实例级别信息的不足。 (3)本文在前期研究的基础上,参考了已有成果,并结合医疗健康领域的特点,设计并实现了一个问答系统。数据从寻医问药网中提取。利用Neo4j图数据库,使用抽取的知识三元组构建医学知识图谱,并实现知识图谱可视化、知识图谱查询功能和自动问答功能。