国家图书馆WEB数据增量采集设计及其实现
Design and Implementation on the Web Data Deduplicated Crawlers of the National Library of China作者机构:国家图书馆北京100081
出 版 物:《数字图书馆论坛》 (Digital Library Forum)
年 卷 期:2021年第1期
页 面:32-37页
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 120502[管理学-情报学]
摘 要:本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考和借鉴。