结合聚类去噪和类型约束的Distant Supervision关系抽取方法
作者单位:吉林大学
学位级别:硕士
导师姓名:欧阳丹彤
授予年度:2013年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:语义Web 关系抽取 Distant Supervision 去噪
摘 要:随着互联网的快速发展,互联网上的内容越来越多,其中包含了大量有用的信息。信息抽取作为从这些内容中抽取结构化信息的工具变得越来越重要。并且在垂直搜索、语义Web等领域展示了其应用价值。经过近20余年的发展,如何从开放领域、大规模的文本内容中抽取关系实例,成为了信息抽取学者们研究的一个热点。在关系抽取任务中,基于监督模型的方法展示了其有效性,然而该方法需要人工标注的训练集,这在开放领域环境中比较耗时耗力。 因此,研究者们提出一种称为Distant Supervision的方法,该方法使用了一个知识库和一个文本集,并且针对每一个出现在知识库的某个关系实例中的实体对,从文本集中收集同时包含了这两个实体的句子,并从这些句子中抽取文本特征,用来训练关系分类器,从而避免了人工标注训练集。从中可以看出Distant Supervision方法有如下假设“如果已知两个实体存在某种语义关系,那么所有包含这两个实体的句子都潜在地表达了它们之间的语义关系。 然而,Distant Supervision方法的假设并不总是成立,而且会引入噪音数据,从而影响关系分类器的准确率。而且,该方法在训练关系分类器时,所用的特征只是从包含了两个实体的句子中抽取的特征,如果能收集到更多关于两个实体本身的特征,将会提高系统的准确率。针对上述问题本文的工作如下: (1)提出一种聚类去噪的方法,用于减少由于Distant Supervision方法的假设所引入的噪音数据。在聚类去噪过程中,针对每一个出现在知识库的某个关系实例中的实体对,我们将收集到的句子集合中未能表达相应语义关系的句子定义为噪音数据,通过聚类和寻找表达语义关系的句子模式,选出对训练关系分类器有利的句子,从而减少噪音数据。 (2)提出两种结合实体类型特征的关系抽取方法。首先通过启发式方法获得关于实体的句子集合,并从中抽取出关于实体类型的文本特征。其次,提出了两种利用该实体类型特征的方法:第一,我们把实体类型特征加入到原来的关系特征集合中,把两类不同的特征同等对待,从而训练关系分类器;第二,本文给出一种类型检查的方式来利用实体类型特征信息,即单独使用实体类型特征信息训练一个实体类型分类器,用原有的关系特征信息训练关系分类器,然后在抽取新的关系实例时用实体类型分类器对关系分类器识别的关系实例进行实体类型的检查和约束。 实验结果表明本文提出的两种方法能够有效的提高关系抽取系统的准确率,然而基于类型检查的方法会在一定程度上降低召回率。但是由于互联网内容的大规模和冗余性,研究者对准确率的关注比召回率要高。