基于模型融合的中文电子病历命名实体识别研究与应用-南通市图书馆

文献详情 >基于模型融合的中文电子病历命名实体识别研究与应用收藏

基于模型融合的中文电子病历命名实体识别研究与应用

作者：杨天骄

作者单位：青岛大学

学位级别：硕士

导师姓名：贺英

授予年度：2022年

学科分类：08[工学] 081203[工学-计算机应用技术] 10[医学] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：命名实体识别中文电子病历四角号码模型融合众包标注

摘要：人工智能、物联网等现代信息技术在医疗卫生领域应用,快速推动了智慧医疗的发展。在多样化的医疗信息中,中文电子病历的命名实体识别的准确性与医疗知识图谱的有效性紧密相关。高质量的医疗知识图谱是实现智能临床辅助、智能在线问诊等功能的基础。由于中文电子病历数据具有非结构化、中英文混合、表述多样性、存在口语化表达等特点,导致命名实体识别任务复杂。因此,研究高性能的中文电子病历实体识别算法及其系统应用是一项有意义的课题,它将有助于智慧医疗的发展。本文主要针对中英文混合条件下实体边界的确定及特殊长度实体的识别、语料众包标注这些难点进行了深入研究。论文的主要内容包括:(1)提出了一种四角号码字向量融合特征的命名实体识别算法。相对于部首特征等其他汉字编码方法,四角号码特征具有能充分表示汉字二维结构和编码重码率低的优点。该算法将病历文本每个字符映射为四角号码的独热编码向量,与BERT字向量特征拼接,利用双向长短期记忆网络和条件随机场方法预测命名实体标签。实验结果表明,通过加入汉字的四角号码特征,中文电子病历实体识别正确率有较大提升,在CCKS2019语料上达到87.17%的F1-score值,比部首特征的实体识别算法提高了2.6%。(2)提出了一种基于模型融合的中文电子病历命名实体识别算法。算法将不同结构的多个BERT和XLNET模型通过不同权重集成,进行命名实体识别。BERT模型在不同网络层数时具有不同的语义抽取能力,XLNET模型在超长文本语义抽取方面有优势。实验结果表明,本文提出的多模型融合算法能够降低过短或过长的实体的识别错误率,F1值达到了89.27%,在药物实体和疾病诊断实体的识别性能上有较大提升,比单个模型精度提高了12.96%和7.99%。(3)本文针对电子病历语料收集困难的问题,设计并实现了一个电子病历命名实体识别众包系统。该系统应用本文模型自动识别电子病历中的命名实体,实现了将众包收集病历、模型自动标注与管理员审核等功能。可以有效扩充电子病历语料集规模,提高众包标注命名实体的可靠性。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于模型融合的中文电子病历命名实体识别研究与应用

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于模型融合的中文电子病历命名实体识别研究与应用

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：