咨询与建议

限定检索结果

文献类型

  • 11 篇 期刊文献
  • 5 篇 学位论文
  • 1 篇 会议

馆藏范围

  • 17 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 13 篇 工学
    • 7 篇 仪器科学与技术
    • 5 篇 计算机科学与技术...
    • 4 篇 软件工程
    • 1 篇 网络空间安全
  • 5 篇 管理学
    • 5 篇 图书情报与档案管...
  • 1 篇 医学
    • 1 篇 公共卫生与预防医...

主题

  • 17 篇 增量采集
  • 3 篇 heritrix
  • 2 篇 运行流程
  • 2 篇 信息抽取
  • 2 篇 网络爬虫
  • 2 篇 国家图书馆
  • 2 篇 论坛有害信息
  • 2 篇 论坛插件
  • 2 篇 监测系统
  • 1 篇 采集策略
  • 1 篇 主题爬虫
  • 1 篇 数据管控
  • 1 篇 web信息采集
  • 1 篇 数据源
  • 1 篇 增量回放
  • 1 篇 互联网网站存档
  • 1 篇 舆情控管
  • 1 篇 网页树
  • 1 篇 storm
  • 1 篇 适应性

机构

  • 4 篇 国家图书馆
  • 3 篇 哈尔滨工业大学
  • 2 篇 武警指挥学院
  • 1 篇 武汉理工大学
  • 1 篇 山东理工大学
  • 1 篇 华南理工大学
  • 1 篇 广东工业大学
  • 1 篇 中山大学
  • 1 篇 苏州市疾病预防控...
  • 1 篇 中国国家图书馆
  • 1 篇 四川大学

作者

  • 3 篇 赵丹阳
  • 2 篇 季士妍
  • 2 篇 王守银
  • 1 篇 董守斌
  • 1 篇 宋保江
  • 1 篇 杨眉
  • 1 篇 温雯
  • 1 篇 魏大威
  • 1 篇 朱丹
  • 1 篇 杨云鹏
  • 1 篇 袁琴
  • 1 篇 丁翀
  • 1 篇 陈晓志
  • 1 篇 白如江
  • 1 篇 高婷
  • 1 篇 龚诚
  • 1 篇 张元丰
  • 1 篇 蔡瑞初
  • 1 篇 骆魁永
  • 1 篇 张雨

语言

  • 17 篇 中文
检索条件"主题词=增量采集"
17 条 记 录,以下是1-10 订阅
排序:
国家图书馆WEB数据增量采集设计及其实现
收藏 引用
数字图书馆论坛 2021年 第1期 32-37页
作者: 季士妍 赵丹阳 国家图书馆 北京100081
本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
网络资源增量采集方法的探究和实践
收藏 引用
图书情报导刊 2021年 第8期6卷 33-37页
作者: 赵丹阳 中国国家图书馆 北京100081
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战。因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
Web信息增量采集与保存管理平台的设计与实现
收藏 引用
无线互联科技 2022年 第23期19卷 68-71页
作者: 赵丹阳 国家图书馆 北京100081
随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的... 详细信息
来源: 维普期刊数据库 维普期刊数据库 博看期刊 同方期刊数据库 同方期刊数据库 评论
互联网网站存档增量采集研究
收藏 引用
数字图书馆论坛 2020年 第12期 17-21页
作者: 杨云鹏 国家图书馆 北京100081
互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
网页增量采集技术研究
网页增量式采集技术研究
收藏 引用
作者: 龚诚 哈尔滨工业大学
学位级别:硕士
网页增量采集系统是信息检索领域中一个重要的研究方向。增量采集的目的是采集变化的网页、新出现的网页和消失的网页,其中最重要的就是新出现网页的增量采集。这种采集方式能有效地缩短采集周期,实时更新网页数据,所以在大规模搜索引... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
增量式Web信息采集与信息提取系统的研究与实现
增量式Web信息采集与信息提取系统的研究与实现
收藏 引用
作者: 李莎莎 武汉理工大学
学位级别:硕士
随着网络的迅猛发展,人们越来越依赖从网络上获取信息。网络信息资源的保存寿命通常只有几十天,随着时间的推移,大量旧的网络信息资源正在被新的网络信息淹没。如何更迅速更准确地从互联网上采集有用的信息成为研究的热点。大规模的非... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于OutbackCDX的增量式Web信息采集研究
收藏 引用
山东理工大学学报(社会科学版) 2020年 第4期36卷 99-105页
作者: 高婷 白如江 山东理工大学档案馆 山东理工大学科技信息研究所
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
国家图书馆网络信息资源采集与保存平台关键技术实现
收藏 引用
图书馆 2021年 第3期 45-50页
作者: 魏大威 季士妍 国家图书馆 北京100081
文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集增量回放显示功能实现的关键技术和方法,并对网络信... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
面向食品安全新闻舆情的主题爬虫的设计与实现
面向食品安全新闻舆情的主题爬虫的设计与实现
收藏 引用
作者: 朱丹 中山大学
学位级别:硕士
近年来,食品安全事件频繁发生,一系列食品安全事件触目惊心,让消费者陷入了极度不安。食品安全问题,需要从源头和传播过程中全面监管和遏制,为此,国家“十二五”科技支撑项目提出食品安全全程溯源以及舆情监控的新思路,依托此项目,本文... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
网络舆情检测与控制关键技术研究
网络舆情检测与控制关键技术研究
收藏 引用
作者: 宋保江 哈尔滨工业大学
学位级别:硕士
随着中国网民数量的不断增长,论坛、博客、微博等网络媒体作为民意表达最为集中、信息传播最为畅通的一个“场所”,越来越受到网民的热衷。网络舆情检测与控制涉及到的关键技术,例如,信息的采集与抽取,话题的聚类与分析以及舆情控管等技... 详细信息
来源: 同方学位论文库 同方学位论文库 评论