咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于任务合并的并行大数据清洗过程优化 收藏

基于任务合并的并行大数据清洗过程优化

The Optimization of the Big Data Cleaning Based on Task Merging

作     者:杨东华 李宁宁 王宏志 李建中 高宏 YANG Dong-Hua;LI Ning-Ning;WANG Hong-Zhi;LI Jian-Zhong;GAO Hong

作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001 哈尔滨工业大学基础与交叉科学研究院哈尔滨150001 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2016年第39卷第1期

页      面:97-108页

核心收录:

学科分类:0810[工学-信息与通信工程] 0808[工学-电气工程] 08[工学] 0839[工学-网络空间安全] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 081202[工学-计算机软件与理论] 

基  金:国家"九七三"重点基础研究发展规划项目基金(2012CB316200) 国家自然科学基金(61472099 60933001 61272046) 国家"八六三"高技术研究发展计划项目基金(2012AA011004) 国家博士后基金(20090450126 201003447) 国家博士后基金特别资助项目(2013T60372) 教育部博士点基金(20102302120054) 黑龙江省自然科学基金(F201317)资助 

主  题:大数据 多任务优化 海量数据 数据清洗 Hadoop MapReduce 

摘      要:数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分