Web信息增量采集与保存管理平台的设计与实现
Design and implementation of Web information incremental collection and storage management platform作者机构:国家图书馆北京100081
出 版 物:《无线互联科技》 (Wireless Internet Technology)
年 卷 期:2022年第19卷第23期
页 面:68-71页
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 120502[管理学-情报学]
主 题:Web信息抓取 增量采集 增量回显 Heritrix 平台构建
摘 要:随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的网络信息增量采集与保存管理平台的设计和架构,并详细介绍平台在网络资源增量采集和增量回显一站式服务的实现技术,提升国家图书馆网络资源保存工作效率和服务质量的同时,以期为业界提供有益的参考和借鉴。