咨询与建议

限定检索结果

文献类型

  • 5 篇 期刊文献
  • 1 篇 学位论文

馆藏范围

  • 6 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 5 篇 工学
    • 2 篇 仪器科学与技术
    • 2 篇 计算机科学与技术...
    • 1 篇 机械工程
    • 1 篇 软件工程
  • 1 篇 医学
    • 1 篇 临床医学

主题

  • 6 篇 shingling
  • 2 篇 网页查重
  • 2 篇 搜索引擎
  • 2 篇 simhash
  • 1 篇 ru
  • 1 篇 filter
  • 1 篇 hadoop
  • 1 篇 错误率
  • 1 篇 similarity
  • 1 篇 minhash
  • 1 篇 jaccard
  • 1 篇 文本相似
  • 1 篇 文本聚类
  • 1 篇 md5
  • 1 篇 相似网页
  • 1 篇 最小哈希
  • 1 篇 bloom
  • 1 篇 bible’s
  • 1 篇 mining
  • 1 篇 局部敏感哈希

机构

  • 2 篇 武汉理工大学
  • 1 篇 国防科学技术大学
  • 1 篇 lsta université ...
  • 1 篇 南京师范大学
  • 1 篇 lerstad universi...
  • 1 篇 université des s...
  • 1 篇 贵州大学

作者

  • 2 篇 毛许光
  • 1 篇 gane samb lo
  • 1 篇 吴云
  • 1 篇 唐晋韬
  • 1 篇 soumaila dembele
  • 1 篇 黄瑞章
  • 1 篇 王挺
  • 1 篇 原默晗
  • 1 篇 许抗震
  • 1 篇 毛晓蛟
  • 1 篇 马成前

语言

  • 5 篇 中文
  • 1 篇 英文
检索条件"主题词=Shingling"
6 条 记 录,以下是1-10 订阅
排序:
网页查重算法shingling和Simhash研究
收藏 引用
计算机与数字工程 2009年 第1期37卷 15-17,108页
作者: 马成前 毛许光 武汉理工大学计算机科学与技术学院 武汉430070
随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
Probabilistic, Statistical and Algorithmic Aspects of the Similarity of Texts and Application to Gospels Comparison
收藏 引用
Journal of Data Analysis and Information Processing 2015年 第4期3卷 112-127页
作者: Soumaila Dembele Gane Samb Lo LSTA Université Pierre et Marie Curie Paris France LERSTAD Université Gaston Berger de Saint-Louis Saint-Louis Sénégal Université des Sciences de Gestion de Bamako Bamako Mali
The fundamental problem of similarity studies, in the frame of data-mining, is to examine and detect similar items in articles, papers, and books with huge sizes. In this paper, we are interested in the probabilistic,... 详细信息
来源: 维普期刊数据库 维普期刊数据库 评论
一种基于Hadoop的文本相似度仿真检测模型
收藏 引用
新疆大学学报(自然科学版) 2017年 第3期34卷 308-315页
作者: 吴云 许抗震 黄瑞章 贵州大学计算机科学与技术学院 贵州贵阳550025
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
网页查重算法研究
网页查重算法研究
收藏 引用
作者: 毛许光 武汉理工大学
学位级别:硕士
Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索系统)即是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在大量的重复网页,它们主要来自网... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
一种高效的分布式相似短文本聚类算法
收藏 引用
计算机与数字工程 2016年 第5期44卷 895-900,943页
作者: 原默晗 唐晋韬 王挺 国防科学技术大学计算机学院 长沙410073
近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
一种双层网页去重方法研究
收藏 引用
电脑编程技巧与维护 2010年 第20期 66-67,84页
作者: 毛晓蛟 南京师范大学强化培养学院 南京210046
利用Bloom Filter数据结构、shingling算法和MD5编码,构造双层网页去重模型。通过Bloom Filter结构,在网络蜘蛛程序下载网页时,去除重复的网址,并讨论了Bloom Filter出错概率。对已下载的网页用shingling算法去重,阐述了相似网页的判断... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论