面向医疗数据的实体分析与自动编码技术研究与应用
作者单位:河北科技大学
学位级别:硕士
导师姓名:阮冬茹;高凯;丁保忠
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:医疗数据 临床文本实体识别 短文本聚类 自动编码 深度学习
摘 要:近年来,随着国内电子病历系统的普及,医疗文本的积累也越来越多。医疗文本中往往包含大量患者的重要诊疗信息,如疾病名称、症状、诊疗记录等。有效分析这些数据,对于病情分析、疾病预防等后续的相关工作具有重要作用。因此,对电子病历的挖掘和分析在数据处理领域越来越受关注。电子病历中的信息多以文本形式表示,而且在病历撰写时由于医生的个人习惯等原因,对于疾病名称、症状描述等术语使用并不统一,导致后续对接医疗费用支付系统、医学数据统计等工作时出现误差。因此将临床文本数据映射到标准的术语库,用编码表示文本具有重要意义。本文对医疗领域数据的实体分析和自动编码进行研究。主要工作如下:1)提出了一种基于Att-Bi-LSTM-CRF的临床文本实体识别方法。该方法将中文笔画n-gram信息词向量(cw2vec)与基于字符向量的双向长短期记忆(Bi-LSTM)网络结合使用,通过注意力机制决定哪些信息更重要,为了使预测标签更具合理性,采用条件随机场(CRF)实现标注。2)提出了一种基于卷积神经网络和K-means的短文本聚类方法。由于疾病文本数据的稀疏性,通过外部ICD-10术语库扩充短文本数据,采用word2vec学习扩充短文本表示,再利用卷积神经网络学习深层特征表示,最后通过传统K-means聚类算法来实现聚类。3)提出了一种基于深度学习和实例的疾病自动编码方法。该方法融合多种方法(深度学习、相似度计算和实例对照表)实现编码。深度学习从训练数据中学习文本与编码间的映射关系,实现编码预测;采用基于TF-IDF的相似度计算,筛选出与疾病满足一定相似度的编码;最后采用实例对照表解决疑难编码。实验证明,本文提出的方法是有效的。针对医疗数据中的疾病名称或诊断描述,基于深度学习模型的实体识别方法的准确率达到82%左右;疾病短文本的扩充、卷积神经网络和传统K-means算法一定程度上可以很好地完成疾病短文本聚类;深度学习方法解决了医院诊断中使用最频繁的编码,相似度计算和实例对照表解决了医院中不常出现和难于判断的编码,通过结合深度学习和实例的方法,尽可能多的覆盖了编码种类,且提高了疾病自动编码的准确率。最后,针对本文的不足及下一步工作研究进行说明。