TPSCRE:一种融合语义特征和多层交叉注意力机制的中药专利文本实体关系联合抽取模型
作者机构:湖北工业大学计算机学院 中南财经政法大学信息工程学院
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2024年
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金一般项目“人工智能时代新闻推荐系统中的“信息茧房”问题形成机理及解决策略研究”(项目编号:21BXW076)的研究成果之一
主 题:中药专利 实体关系联合抽取 词性特征 交叉注意力机制 对抗学习
摘 要:[目的]解决中药专利文本中实体重叠和关系复杂的问题,提升中药成分、药理疗效、优点等实体关系的抽取精度。[方法]提出一种中药专利文本实体关系联合抽取模型TPSCRE:结合词性标注网络和CDIL-CNN增强模型对中药专利语义的语法理解与长距离依赖信息的捕捉,利用双重Cross-Attention机制来生成多样化词表示以增强实体和关系的信息交互和互补,通过对抗学习策略增强模型对潜在错误标注数据的鲁棒性和泛化能力;构建主客体对应矩阵过滤出正确的中药专利实体关系三元组。[结果]实验结果表明,相较于基准模型,TPSCRE模型在中药专利数据集上的实体识别和关系抽取任务中,F1值分别提升2.88%和5.38%。[局限]模型复杂度和计算成本较高,且评估标准受限于现有数据集的规模,需要在数据集规模扩充后,增强模型在实际应用中的表现。[结论] TPSCRE模型能更好捕捉中药文本中实体间的复杂关系,在中药专利实体关系的联合抽取任务中有显著性能优势。