云环境下基于内存计算的车联网大数据处理方法研究
作者单位:中国石油大学(华东)
学位级别:硕士
导师姓名:梁鸿
授予年度:2017年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 0838[工学-公安技术]
摘 要:随着智能设备普及,互联网通信技术的不断发展,大量信息涌入人们的生活,如何整合这些海量数据,并实现快速地对其处理、分析,从而提炼出用户所需要的信息已成为数据研究领域中的研究热点。机器学习与数据挖掘技术的发展使得对数据的分析不再仅限于表面,通过对数据的分析、训练或学习,数据之间隐含的关联、数据延伸出的信息都成为了数据价值的一部分。同时,数据处理平台不断发展使数据处理速度大幅提升。大数据的出现带来了颠覆性的技术型变革,在大规模数据集的处理过程中,处理速度、精确度等都有了突破性的提高。依托于大数据分析而创造的经济效益、文化效益吸引了各大企业以及专家学者们的广泛关注。本文详细介绍了车联网系统中数据类型多、体量大的特点,将大数据处理平台应用于车联网可以有效满足用户的需求,探讨了将车联网大数据应用部署于云服务器上的大数据处理架构Spark的可靠性、高效性。本文的一个核心研究对象是LF620电动车车联网数据集,车辆使用背景决定了其路线固定,行驶时间基本一致的行驶特点,以此为基础本文制定了该车行驶拥堵等级分类标准以及其功耗模型。本文围绕该数据集进行了逻辑回归算法的实现及扩展,并用于车辆剩余行驶里程的预估。本文重点围绕LF620车联网数据处理以及Spark的优化展开研究。首先分析了spark机器学习库中逻辑回归算法分类模型的理论知识,讨论了其在多分类问题中存储开销大、准确率不高的局限。为了节省存储开销以便应用于车联网数据分析系统,进行了算法的扩展,将Softmax函数引入Spark逻辑回归分类模型的模型训练过程。在实验验证中展示出了Softmax逻辑回归算法具有较高的准确度。最后,本文对Spark的优化展开了研究。首先从改变数据序列化模式着手,比较了默认序列化和Kryo序列化模式在运行应用程序上时间的差异,其次提出了对Spark内存的缓存替换策略的改进,实验结果展示出,上述策略有效提高了RDD缓存命中率,提高了内存利用率,有效提升了Spark的处理速度。最后,通过分析作业调度器划分作业、提交作业的过程得到用户提交任务的有向无环图,利用监听代码统计出需要缓存的RDD,节省大量数据读取时间,实现Spark处理速度的提升。