面向电子病历的事件抽取研究
作者单位:东南大学
学位级别:硕士
导师姓名:翟玉庆
授予年度:2018年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:事件抽取能够从无结构的文本中抽取出有价值的结构化信息供计算机处理,而对电子病历进行事件抽取能够从电子病历中得到对诊断推理有用的信息。本文针对电子病历设计了电子病历事件表示模型以及引入种子的联合约束聚类电子病历事件抽取模型。本文的主要工作有:1.设计了基于触发词和论元角色的层次型电子病历事件表示模型TARH-ERM。建立了TARH-ERM的框架,并设计了适合电子病历的触发词和论元角色类型、事件关联类型。2.以TARH-ERM表示的事件为事件抽取任务,设计了引入种子的联合约束聚类电子病历事件抽取模型SJCC-EEM。在触发词和论元角色识别过程中,结合了词向量相似度和语义约束来计算触发词与触发词、论元角色与论元角色之间的相似度,在聚类过程中引入种子词来进行类别识别。用基于语义的方法对词之间建立关联从而得到事件内部的关系以及事件之间的关系。3.以SJCC-EEM为核心,设计并实现了事件抽取原型系统SJCC-EESys。本文的主要成果是提出了适合电子病历的基于触发词和论元角色的层次型事件表示模型和引入种子的联合约束聚类的事件抽取模型。本文工作对医学文本领域事件抽取研究具有参考价值。