基于动态粒度思想的实体关系识别方法研究
作者单位:山西大学
学位级别:硕士
导师姓名:杨尔弘
授予年度:2006年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:信息抽取是自然语言处理领域的一个重要分支,它的研究内容是从海量信息源中迅速找到真正需要的信息,主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 中文信息抽取研究起步较晚,主要研究工作集中在中文命名实体的识别方面。近年来,随着实体识别研究逐步实用化,实体关系识别的研究也越来越受到人们的重视。实体关系识别对于篇章理解、信息检索、信息抽取、问答系统、机器翻译等方面的研究有着非常积极的意义。目前汉语实体关系识别的研究刚起步,研究者主要是采用基于特征向量的机器学习算法识别中文文本中的实体关系,取得了一定的效果。 实体关系的识别完全依赖文本中的特征,不同的特征粒度对识别结果有较大影响。分析以往的方法,都是采用统一粒度的特征来进行关系识别,这样会产生由于特征粒度比较“细,问题粒度相对比较“粗而不能识别的区域,为了解决这个问题,本文提出了采用基于动态粒度下粗集近似思想的方法进行实体关系识别。 本文首次应用动态粒度思想,对识别特征逐步进行了细化,构建了一个具有偏序关系的特征族,经过训练,用来识别实体关系,取得了较好的效果。本文主要工作如下: 1.语料标注。对818篇3.11马德里爆炸新闻语料,约40万字,进行了实体标注,同时少量标注了7.7伦敦地铁爆炸新闻语料,做开放