简单本体在实用信息抽取中的使用及针对实用本体的高级信息抽取
Simple ontologies for practical information extraction and advanced information extraction for practical ontologies作者机构:德国人工智能研究中心
出 版 物:《当代语言学》 (Contemporary Linguistics)
年 卷 期:2013年第15卷第2期
页 面:230-244页
核心收录:
学科分类:0502[文学-外国语言文学] 05[文学] 050211[文学-外国语言学及应用语言学]
摘 要:信息抽取是用来理解自然语言文本语义的一种非常实用的方法。而本体则对知识(例如实体和概念间的关系)的定义与建模起重要作用。因此本体经常被用来定义信息抽取任务。高级信息抽取技术,例如复杂的多元关系抽取,可用于学习语言模板,进而从自然文本中识别出本体定义的关系,并抽取出这些关系的实例。本文将描述一个为信息抽取任务而设计的本体模型,以及一个关系抽取的框架系统——DARE。DARE使用了机器学习方法,可以自动学习关系抽取的语言模板,并应用这些模板来抽取关系实例。DARE系统已被深度应用于英语文本的关系抽取。本文将进一步使用DARE来处理中文新闻文本,从中学习语言模板和抽取关系实例,并与英文处理的结果进行比较。