咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于模型融合的中文电子病历命名实体识别研究与应用 收藏
基于模型融合的中文电子病历命名实体识别研究与应用

基于模型融合的中文电子病历命名实体识别研究与应用

作     者:杨天骄 

作者单位:青岛大学 

学位级别:硕士

导师姓名:贺英

授予年度:2022年

学科分类:08[工学] 081203[工学-计算机应用技术] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:命名实体识别 中文电子病历 四角号码 模型融合 众包标注 

摘      要:人工智能、物联网等现代信息技术在医疗卫生领域应用,快速推动了智慧医疗的发展。在多样化的医疗信息中,中文电子病历的命名实体识别的准确性与医疗知识图谱的有效性紧密相关。高质量的医疗知识图谱是实现智能临床辅助、智能在线问诊等功能的基础。由于中文电子病历数据具有非结构化、中英文混合、表述多样性、存在口语化表达等特点,导致命名实体识别任务复杂。因此,研究高性能的中文电子病历实体识别算法及其系统应用是一项有意义的课题,它将有助于智慧医疗的发展。本文主要针对中英文混合条件下实体边界的确定及特殊长度实体的识别、语料众包标注这些难点进行了深入研究。论文的主要内容包括:(1)提出了一种四角号码字向量融合特征的命名实体识别算法。相对于部首特征等其他汉字编码方法,四角号码特征具有能充分表示汉字二维结构和编码重码率低的优点。该算法将病历文本每个字符映射为四角号码的独热编码向量,与BERT字向量特征拼接,利用双向长短期记忆网络和条件随机场方法预测命名实体标签。实验结果表明,通过加入汉字的四角号码特征,中文电子病历实体识别正确率有较大提升,在CCKS2019语料上达到87.17%的F1-score值,比部首特征的实体识别算法提高了2.6%。(2)提出了一种基于模型融合的中文电子病历命名实体识别算法。算法将不同结构的多个BERT和XLNET模型通过不同权重集成,进行命名实体识别。BERT模型在不同网络层数时具有不同的语义抽取能力,XLNET模型在超长文本语义抽取方面有优势。实验结果表明,本文提出的多模型融合算法能够降低过短或过长的实体的识别错误率,F1值达到了89.27%,在药物实体和疾病诊断实体的识别性能上有较大提升,比单个模型精度提高了12.96%和7.99%。(3)本文针对电子病历语料收集困难的问题,设计并实现了一个电子病历命名实体识别众包系统。该系统应用本文模型自动识别电子病历中的命名实体,实现了将众包收集病历、模型自动标注与管理员审核等功能。可以有效扩充电子病历语料集规模,提高众包标注命名实体的可靠性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分