医疗领域文本结构化
Text structuralization in medical field作者机构:东华大学计算机科学与技术学院上海201620
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2017年第38卷第10期
页 面:2873-2878页
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:上海市科技行动计划基金项目(15511106900) 上海市智慧城市建设基金项目(2015年1月至2016年12月) 上海市信息化发展资金基金项目(XX-XXFZ-05-16-0139)
摘 要:现有通用分词工具对医疗专业术语的识别效果不理想,影响了医疗文本结构化的效果。针对该问题,提出一种基于词向量的新词发现方法,利用新词发现过程中构建的词库抽取信息,得到结构化数据。使用Google开源词向量工具word2vec训练文本,将词映射到抽象的n维向量空间;根据词与词之间的得分、词的左右信息熵和在文本中的词来发现新词,把发现的新词加入用户自定义词库;设计信息抽取规则,根据发现的关键词提取对应的关键信息,将其组织为结构化数据。实验结果表明,用该方法进行结构化处理在准确率上比传统方法提高了10%,在效率上比传统方法提高了18%。