基于文本块密度与标签路径等特征的正文提取
Text Extraction Based on Text Block Density with Tag Path and Other Features作者机构:广东工业大学艺术与设计学院广东广州510090 广东工业大学计算机学院广东广州510006
出 版 物:《广东工业大学学报》 (Journal of Guangdong University of Technology)
年 卷 期:2018年第35卷第2期
页 面:51-56页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:广东省部产学研专项资金企业创新平台资助项目(2013B090800042)
摘 要:为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.