开放环境多分布特性的局部敏感哈希检索方法
Open Environmental Locality-sensitive Hashing Retrieval for Multiple Distributed Characteristics作者机构:福建师范大学计算机与网络空间安全学院福建福州350117 数字福建环境监测物联网实验室(福建师范大学)福建福州350117 福建省网络安全与密码技术重点实验室(福建师范大学)福建福州350117
出 版 物:《软件学报》 (Journal of Software)
年 卷 期:2022年第33卷第4期
页 面:1200-1217页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61772004) 福建省科技重大项目(2020H6011) 福建省自然科学基金(2020J01161)
主 题:开放环境 近似近邻检索 数据多分布特性 局部敏感哈希 数据检索
摘 要:基于局部敏感哈希的检索方法能够较好地解决高维大规模数据的近似近邻检索问题.但在开放环境下针对多种分布特性时,迄今尚未有令人满意的解决方案.利用Laplacian算子对数据分布剧烈变化敏感的特性,提出一种具有全局性、适用于开放环境下多种分布特性的基于Laplacian算子的局部敏感哈希搜索方法(LPLSH).该方法把Laplacian算子应用于数据投影的概率密度分布,找到数据投影分布的剧烈变化位置作为超平面的偏移量.从理论上证明了精简维度的哈希函数能够保持局部敏感性及低投影密度区间分割的有效性,分析了利用Laplacian算子计算的二阶导数对超平面偏移量设置的指导意义.与其他8种方法对比,LPLSH算法的F1值是其他方法最优值的0.8倍-5倍,耗费时间也大幅减少.通过对具有多种分布特性数据集上的实验验证,结果表明:LPLSH方法能够同时兼顾效率、精度和召回率,可满足开放环境下多分布特性的大规模高维检索的鲁棒性需求.