中心网页中主题网页链接的自动抽取
Automatic extracting topic page links from Hub page作者机构:数据工程与知识工程教育部重点实验室(中国人民大学)北京100872 中国人民大学信息资源管理学院北京100872
出 版 物:《山东大学学报(理学版)》 (Journal of Shandong University(Natural Science))
年 卷 期:2012年第47卷第5期
页 面:25-31页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。