咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >网页信息自动提取的设计与实现 收藏

网页信息自动提取的设计与实现

作     者:栗勇兵 韩平 董启雄 

作者机构:装备学院信息管理中心北京怀柔101416 

出 版 物:《计算机光盘软件与应用》 (Computer CD Software and Application)

年 卷 期:2012年第15卷第18期

页      面:187-188页

学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:网页信息 提取 设计 

摘      要:网页信息自动提取是一种重要的网络应用技术,用于提取各类网页的专门信息。网页信息自动提取的设计基于网页的半结构化特征,其流程是先获取HTML源文件,然后去掉HTML标记和无关信息,再进行语义匹配,提取信息到特定的数据结构,进行CSV格式化输出,就可以得到所需的信息。在网站企业化、网店普遍化和网络购物盛行的背景下,推广和应用网页信息自动提取技术,有着重要的经济价值和意义。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分