基于复杂网络的关键词提取研究
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:刘怀亮
授予年度:2013年
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 07[理学] 070104[理学-应用数学] 120502[管理学-情报学] 0701[理学-数学]
摘 要:在信息爆炸时代,信息量呈几何级数增长。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决该问题。然而,网络上的绝大部分文章并未提供关键词,如果对这些文本采取人工标引的方法进行关键词标注,不仅费时费力、效率低下,而且主观随意性比较大。因此,关键词自动提取的研究具有重要的现实意义。 传统的关键词提取算法只注重文档的表层统计特性(如词频、词语位置、词语长度等),忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。而现有基于词语网络的关键词提取算法,虽然在一定程度上利用了文档的结构信息,但语义信息的利用依然不足,并且网络的构造过程过分依赖于分词的粒度。 针对上述问题,本文对基于复杂网络的关键词提取进行了研究。首先针对传统词语网络构造过程中过分依赖分词粒度的不足,提出一种邻近名词合并的算法,在ICTCLAS初步分词的基础上利用提出的邻近词合并算法识别出名词短语,并将短语添加到分词词典中,然后对待处理文档重新进行分词;其次针对传统词语网络语义缺失的问题,在文本复杂网络的构建过程中利用知网对网络节点进行语义标注,为词语网络加入语义信息,然后利用改进的语义相似度计算方法计算节点间的相似度,合并相似节点;再次,在节点重要度计算过程中,提出一种综合考虑网络节点介数和节点加权中心度的综合权值公式。最后,根据提出的算法流程,设计并实现了一个基于复杂网络的关键词提取的原型系统,并对本文提出的各种算法进行了对比实验,结果表明本文提出的关键词提取方法获得了更好的抽取效果。