大数据环境下Lucene性能优化方法研究
Performance optimization method of Lucene in big data作者机构:国家计算机网络应急技术处理协调中心江苏分中心江苏南京210003
出 版 物:《南京理工大学学报》 (Journal of Nanjing University of Science and Technology)
年 卷 期:2015年第39卷第3期
页 面:260-265页
核心收录:
学科分类:0810[工学-信息与通信工程] 08[工学] 081203[工学-计算机应用技术] 0805[工学-材料科学与工程(可授工学、理学学位)] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:大数据 Lucene 内存计算 批量更新 倒排索引 倒排表 缓存 内存索引 磁盘索引 多分块倒排结构
摘 要:为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。