基于多任务和迁移学习的中文医学文献实体识别研究
Recognizing Chinese Medical Literature Entities Based on Multi-Task and Transfer Learning作者机构:南京邮电大学管理学院南京210003 江苏省数据工程与知识服务重点实验室南京210023
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2023年第7卷第9期
页 面:136-145页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 081203[工学-计算机应用技术] 08[工学] 120502[管理学-情报学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金项目(项目编号:22BTQ096)的研究成果之一
主 题:医学文献实体识别 多任务学习 迁移学习 注意力机制 Highway网络
摘 要:【目的】利用迁移学习和多任务学习解决中文医学文献实体识别冷启动和边界定位难的问题,进一步提高识别准确性。【方法】提出一种基于迁移学习和多任务学习的中文医学文献实体识别方法,构建混合深度学习BERT-BiLSTM-IDCNN-CRF的医学文献实体识别模型,通过实例迁移、模型迁移和特征迁移丰富医学语义特征,利用多任务学习构建粗粒度三分类任务以辅助实体识别任务有效利用实体边界信息,最后引入自注意力机制和Highway网络捕获全局重要信息并优化深层网络训练,提出TLMT-BBIC-HS模型。【结果】TLMT-BBIC-HS模型在中文糖尿病医学文献数据集上F1值达92.98%,较基准模型BERT-BiLSTM-CRF和BERT-IDCNN-CRF分别提高15.99个百分点和16.44个百分点。【局限】未验证模型的领域适应性。【结论】TLMT-BBIC-HS模型可实现医学知识的迁移共享,更适用于中文医学文献实体识别任务,可为医疗健康信息抽取、知识图谱和问答系统构建提供有效支持。