中文电子病历命名实体和实体关系语料库构建
Corpus Construction for Named Entities and Entity Relations on Chinese Electronic Medical Records作者机构:哈尔滨工业大学语言技术研究中心网络智能研究室黑龙江哈尔滨150001 哈尔滨医科大学附属第二医院病案室黑龙江哈尔滨150086 哈尔滨医科大学附属第二医院呼吸内科黑龙江哈尔滨150086 哈尔滨医科大学附属第四医院神经内科黑龙江哈尔滨150001
出 版 物:《软件学报》 (Journal of Software)
年 卷 期:2016年第27卷第11期
页 面:2725-2746页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:中文电子病历 命名实体 实体关系 标注规范 标注语料构建
摘 要:电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.