咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >医疗领域文本结构化 收藏

医疗领域文本结构化

Text structuralization in medical field

作     者:丁祥武 张夕华 DING Xiang-wu;ZHANG Xi-hua

作者机构:东华大学计算机科学与技术学院上海201620 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2017年第38卷第10期

页      面:2873-2878页

学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:上海市科技行动计划基金项目(15511106900) 上海市智慧城市建设基金项目(2015年1月至2016年12月) 上海市信息化发展资金基金项目(XX-XXFZ-05-16-0139) 

主  题:医疗文本 中文分词 词向量 信息熵 信息抽取 

摘      要:现有通用分词工具对医疗专业术语的识别效果不理想,影响了医疗文本结构化的效果。针对该问题,提出一种基于词向量的新词发现方法,利用新词发现过程中构建的词库抽取信息,得到结构化数据。使用Google开源词向量工具word2vec训练文本,将词映射到抽象的n维向量空间;根据词与词之间的得分、词的左右信息熵和在文本中的词来发现新词,把发现的新词加入用户自定义词库;设计信息抽取规则,根据发现的关键词提取对应的关键信息,将其组织为结构化数据。实验结果表明,用该方法进行结构化处理在准确率上比传统方法提高了10%,在效率上比传统方法提高了18%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分