Tag-TextRank:一种基于Tag的网页关键词抽取方法
Tag-TextRank:A Webpage Keyword Extraction Method Based on Tags作者机构:中国科学院计算技术研究所北京100190
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2012年第49卷第11期
页 面:2344-2351页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(60776797 60873166) 国家"九七三"重点基础研究发展计划基金项目(2007CB311103) 国家"八六三"高技术研究发展计划基金项目(2006AA010105)
主 题:社会化标注 标签 关键词抽取 网页关键词抽取 TextRank
摘 要:关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性.