咨询与建议

限定检索结果

文献类型

  • 14 篇 期刊文献
  • 14 篇 学位论文

馆藏范围

  • 28 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 28 篇 工学
    • 25 篇 计算机科学与技术...
    • 21 篇 软件工程
    • 2 篇 仪器科学与技术
    • 1 篇 机械工程
    • 1 篇 电子科学与技术(可...
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 28 篇 文本去重
  • 10 篇 simhash
  • 5 篇 文本分类
  • 4 篇 网络爬虫
  • 3 篇 语义指纹
  • 2 篇 文本特征
  • 2 篇 文本挖掘
  • 2 篇 相似度
  • 2 篇 搜索引擎
  • 2 篇 lcs
  • 1 篇 中医医案
  • 1 篇 关键词抽取
  • 1 篇 页面解析
  • 1 篇 主题爬虫
  • 1 篇 个性化新闻推荐
  • 1 篇 相似计算
  • 1 篇 hadoop
  • 1 篇 信息抽取
  • 1 篇 关键标签抽取
  • 1 篇 网络文本采集与分...

机构

  • 3 篇 北京邮电大学
  • 1 篇 华中科技大学
  • 1 篇 国防科学技术大学
  • 1 篇 国泰君安证券股份...
  • 1 篇 华存数据信息技术...
  • 1 篇 对外经济贸易大学
  • 1 篇 北京大学
  • 1 篇 吉林大学
  • 1 篇 中国神华国际工程...
  • 1 篇 卓望信息技术有限...
  • 1 篇 中南林业科技大学
  • 1 篇 陆军工程大学
  • 1 篇 浙江大学
  • 1 篇 南京邮电大学
  • 1 篇 南开大学
  • 1 篇 成都信息工程大学
  • 1 篇 哈尔滨工程大学
  • 1 篇 中国科学院大学
  • 1 篇 江西财经大学
  • 1 篇 西安电子科技大学

作者

  • 2 篇 陈露
  • 1 篇 徐堃
  • 1 篇 李兵
  • 1 篇 胡程忆
  • 1 篇 李东闻
  • 1 篇 于建坤
  • 1 篇 姚庆锋
  • 1 篇 吴国仕
  • 1 篇 张玉志
  • 1 篇 杨志强
  • 1 篇 张亚男
  • 1 篇 石雁
  • 1 篇 李晨
  • 1 篇 钟震宇
  • 1 篇 汤建明
  • 1 篇 周汝佳
  • 1 篇 于俊凤
  • 1 篇 高翔
  • 1 篇 张航
  • 1 篇 黄永亮

语言

  • 28 篇 中文
检索条件"主题词=文本去重"
28 条 记 录,以下是1-10 订阅
排序:
基于事件异构图表示的文本去重算法
收藏 引用
湖南大学学报(自然科学版) 2023年 第2期50卷 74-85页
作者: 艾玮 许佳 谢灿豪 孟涛 中南林业科技大学计算机与信息工程学院 湖南长沙410018
基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 博看期刊 评论
基于Simhash改进的文本去重算法
收藏 引用
计算机技术与发展 2022年 第8期32卷 26-32页
作者: 张亚男 陈卫卫 付印金 徐堃 陆军工程大学指挥控制工程学院 江苏南京210007
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
Simhash算法在文本去重中的应用
收藏 引用
计算机工程与应用 2020年 第11期56卷 246-251页
作者: 张航 盛志伟 张仕斌 杨敏 成都信息工程大学网络空间安全学院 成都610225
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
海量网络文本去重系统的设计与实现
收藏 引用
计算机应用与软件 2018年 第12期35卷 33-37页
作者: 汤建明 寇小强 华北计算机系统工程研究所 北京100083
如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西。这不仅给用户带来了不好的体验,对内容提供商来... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
中文短文本去重方法研究
收藏 引用
计算机工程与应用 2014年 第16期50卷 192-197页
作者: 高翔 李兵 北京大学汇丰商学院 广东深圳518055 对外经济贸易大学信息学院 北京100029
针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimH... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
面向海量短文本去重技术的研究与实现
面向海量短文本去重技术的研究与实现
收藏 引用
作者: 杨虎 国防科学技术大学
学位级别:硕士
随着计算机技术的迅猛发展和信息传播手段的进步,即时通讯、BBS、新闻组、电子邮件等以短文本方式出现的信息也快速增长。消息文本的快速增长给人们的生活带来了便利的同时,也因其产生的速度超过人们的利用效率,使得人们难以从中获取有... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于语义指纹和Simhash的文本去重方法研究
基于语义指纹和Simhash的文本去重方法研究
收藏 引用
作者: 周汝佳 江西财经大学
学位级别:硕士
随着不同类型的信息数据的增加,用户能够获取的信息量不断增多,因此搜索信息过程中投入的成本也随之提高。从信息资源集合中去除重复内容是信息资源管理的一项重要工作,可以提高用户使用信息资源的效率。目前,信息内容去重已经被应用到... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于语义指纹和LCS的文本去重方法
收藏 引用
软件 2014年 第11期35卷 25-30页
作者: 陈露 吴国仕 李晶 北京邮电大学软件学院 北京100000
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于N-Gram的文本去重方法研究
收藏 引用
杭州电子科技大学学报(自然科学版) 2010年 第2期30卷 61-64页
作者: 王小华 卢小康 杭州电子科技大学计算机应用研究所 浙江杭州310018
中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于DRPKP算法的文本去重研究与应用
收藏 引用
微型电脑应用 2014年 第1期30卷 58-60页
作者: 俞枫 王引娜 国泰君安证券股份有限公司 华存数据信息技术有限公司
SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑。基于多年在金融证券行业信息管理和数据整合的经验,本文分析目前文本去重方法存在的问题,特别针对SimtHash算法在特定行... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论