面向多源数据的信息抽取方法研究
作者单位:华东理工大学
学位级别:硕士
导师姓名:阮彤;陈诚
授予年度:2015年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:竞争对手挖掘 无监督学习 Distant Supervision 包装器归纳
摘 要:随着互联网技术的发展,网络电子文档的数量规模越来越庞大。这些海量的电子文档中包含着许多用户需要的信息。通常情况下,能够被用户直接使用的信息都是以结构化的形式出现的。但是在大部分电子文档中,用户需要的信息都隐含在大量的无结构化页面或半结构化文本中,因此用户很难直接获取这些信息。为了更好地利用电子文档中包含的海量信息,我们首先需要从这些文档中抽取出用户所需要的信息,并将其以结构化的形式存储。 本课题主要研究在企业招股说明书中抽取出与该企业满足竞争关系的命名实体,即竞争对手公司名。通过对文档特征的观察,我们发现企业招股说明书中具有专门描述竞争对手的章节,我们将该章节命名为竞争对手描述章节(CDS)。而CDS中描述竞争对手的文本形式有三种:列表型、表格型和自由文本型。不同类型的CDS,具有不同等级的困难且需要不同的抽取方法,因此我们提出了一种多策略学习算法来解决这个多源数据上的信息抽取任务。 本文的工作主要分为两部分:竞争对手描述章节的检测和多策略学习算法。前一部分是为了对企业招股说明书中的描述竞争对手的章节进行定位,而后一部分的工作是从定位好的章节中抽取出竞争对手公司名。对于CDS的定位,我们首先使用启发式规则来抽取出大部分语料中的CDS,然后对抽取出的CDS进行正负例标注,接着对所有章节进行特征选择,选取出具有代表性的词语集合,最后使用分类器对这些章节进行分类,从而找到对应的CDS。而多策略学习算法的思想是:首先从列表型的语料中抽取出竞争对手,然后将抽取出来的结果作为种子对其他两种类型的语料进行标注,最后利用标注后的语料自动学习生成抽取模型,从而boost地从其他两种语料中抽取出竞争对手公司名。因为在这个过程中,我们使用Distant Supervision的方法来进行标注语料,所以避免了大量人工标注的工作。我们的方法的好处就是,在命名实体识别阶段不需要进行竞争对手识别。实验结果表明,多策略学习算法远远优于传统的命名实体识别方法。