咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于HBase的多模态医疗大数据存储模型及其检索优化 收藏
基于HBase的多模态医疗大数据存储模型及其检索优化

基于HBase的多模态医疗大数据存储模型及其检索优化

作     者:刘梓汐 

作者单位:中南大学 

学位级别:硕士

导师姓名:朱承璋

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 10[医学] 

主      题:分布式存储技术 HBase数据库 医学大数据 存储模型 检索优化 冷热数据分离方案 

摘      要:随着大数据时代的到来,医疗数据量急剧增长。建立医疗大数据统一存储与管理模型,实现不同医疗机构间的信息共享,对于促进智慧医疗、推进诊疗和疾病预测技术的发展具有重要意义。然而,传统关系型数据库无法适应大数据时代的数据规模,而HBase因其低成本、高可靠性和支持多种模态数据存储等特点,已成为大数据时代首选的数据库。考虑到医疗大数据来源广泛、规模巨大、模态多样,因此设计一个满足医疗大数据统一存储、检索和管理的模型是异常复杂的。为实现上述目标,本文研究了以下内容:(1)本文设计了一个适用于多模态医疗大数据的存储模型。首先,通过梳理医疗大数据的来源及其模态构成,结合医疗大数据的特点,本文设计了一个基于HBase的医疗大数据存储模型。为了实现模型的可扩展性,不同模态的数据被分类存储在不同的列簇中,以提高数据的读写效率,方便管理和维护多模态。其次,本文采用预分区和Row Key打散的策略来解决写热点问题,实现了数据在不同的Region Server中的均匀分布,从而避免了性能瓶颈的产生。最后,本文比较了常见的大数据压缩算法,并选择了适合医疗大数据的最佳算法进行压缩。该压缩算法可以减少存储空间,同时保证数据传输效率和完整性。经实验证明,该存储模型具有可行性和高效性,能够满足多模态医疗大数据的统一存储需求。(2)本文对上述存储模型的检索性能进行了优化。一方面,数据动态管理模块提出了识别数据温度的S-TCR方法和为不同数据动态选择最佳存储介质的SL-TCR算法,以最大限度地发挥快速存储介质的性能优势,从而有效地提高检索速度。另一方面,索引管理模块提出了改进的二级索引优化策略,即使用Bloom Filter过滤不存在的检索关键词,并重设计索引的Row Key,使主数据和索引数据由同一个Region Server管理,以减少I/O开销,从而提高医疗数据的多样化检索速度。经过实验验证,该检索优化方案能够满足医疗领域对于检索速度和多样化检索的要求。图36幅,表10个,参考文献70篇

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分