咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于语义相似的在线哈希检索方法研究 收藏
基于语义相似的在线哈希检索方法研究

基于语义相似的在线哈希检索方法研究

作     者:黄良 

作者单位:西安电子科技大学 

学位级别:硕士

导师姓名:王秀美

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:在线哈希 流数据 数据不平衡 困难样本学习 

摘      要:随着5G网络的普及和移动终端设备的发展,人类社会已经步入大数据时代。大数据存储与分析技术是信息领域的关键技术,对社会经济的发展具有及其重要的推动作用。信息检索作为大数据技术的重要分支,受到了国内外学者的广泛关注。哈希检索具有存储成本低、查询速度快等优势,是大规模数据检索的重要技术手段,拥有广阔的发展前景。传统的基于批量数据处理的哈希方法只能用于处理静态数据,无法适应在线场景下的流数据处理。在线哈希检索通过引入在线学习方法,构建动态哈希模型,实现了流数据的高效处理。然而目前的在线哈希检索方法仍然存在一些亟待解决的问题:1、在线学习过程中的信息丢失问题;2、在线场景下的数据不平衡问题;3、流数据分布的码本拟合问题;4、在线场景下的困难样本学习问题。针对以上问题,本文提出了两种在线哈希检索方法:(1)针对流数据的信息丢失问题与数据不平衡问题,本文提出了一种基于语义保持与动态平衡策略的在线哈希检索方法。该方法以一个小规模锚点集的编码作为中间变量,通过相似性矩阵关联新旧数据的哈希码,减少信息损失的同时大幅提升了训练效率。此外,还将标签矩阵作为监督信息的补充,进一步增强了哈希模型的信息整合能力。为了解决在线场景下的数据不平衡问题,该方法提出了一种动态平衡策略,以自适应方式调整相似数据对的学习权重。最后,该方法采用离散优化策略学习哈希码,避免了量化损失。(2)针对流数据分布的码本拟合问题与困难样本学习问题,本文提出了一种基于动态码本与困难样本学习的在线哈希检索方法。该方法首先利用哈达玛矩阵构建初始码本,并通过学习一个正交映射矩阵实现初始码本的动态更新,之后将相似性矩阵作为监督信息指导码本更新与哈希码的生成,从而获得更加契合数据分布的码本与哈希码。此外,该方法还提出了一种面向成对数据的加权注意力机制,首先通过已有哈希模型发现困难样本对,然后在相似性矩阵中提升困难样本对的学习权重,从而增强哈希模型对困难样本的辨别能力。最后,该方法采用了两步哈希优化策略,实现了哈希码与哈希函数学习过程的解耦。本文在三个广泛使用的数据集上进行了大量实验,并将实验结果与八种具有代表性的在线哈希检索方法进行了对比,对比结果验证了本文提出的两种在线哈希检索方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分