基于多层次特征提取的中文医疗实体识别
Chinese Medical Entity Recognition Based on Multi-level Feature Extraction作者机构:武汉科技大学计算机科学与技术学院湖北武汉430065 武汉科技大学智能信息处理与实时工业系统湖北省重点实验室湖北武汉430065
出 版 物:《计算机技术与发展》 (Computer Technology and Development)
年 卷 期:2023年第33卷第9期
页 面:119-125页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:实体识别 BERT预训练 空洞卷积网络 注意力机制 感受野
摘 要:中文医疗实体识别是医疗领域文本信息处理的基础,但中文医疗文本中常常存在语法不规范、实体嵌套和类型易混淆等问题易造成实体识别精度下降,因此确保中文医疗实体识别的准确度具有较大的理论研究和实际应用价值。为此,提出一种融合BERT预训练、双向长短期记忆网络(BILSTM)和结合注意力机制的空洞卷积网络(IDCNN)的实体识别模型来提升中文医疗实体识别的精度。起先,使用BERT预训练语言模型使中文字符转换为词向量并增强其语法语义特征;而后将训练好的词向量分别通过BILSTM网络和加入注意力机制的IDCNN网络获取上下文信息和更大的感受野;最终将蕴含语法语义特征、上下文信息和更大的感受野信息的特征融合并输入到条件随机场(CRF)中进行实体预测。在两个公开的医疗数据集CMeEE/Yidu-S4K上的实验表明,该模型的F1值分别达到了0.7116和0.8206,较主流模型分别提高了1.40百分点和2.29百分点,验证了此模型在中文医疗实体识别上的有效性。