咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark的层叠支持向量机研究 收藏
基于Spark的层叠支持向量机研究

基于Spark的层叠支持向量机研究

作     者:赵茹 

作者单位:北方民族大学 

学位级别:硕士

导师姓名:秦传东

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:支持向量机 层叠支持向量机 Spark分布式计算框架 鲸鱼优化算法 

摘      要:随着大数据时代的到来,如何处理大数据成为了人们关注的焦点。支持向量机可以很好的处理数据分类和回归问题,但是此算法的空间复杂度和时间复杂度都很高,所以当数据集的规模很大时,会导致数据的存储空间和训练时间成倍增长。为了解决这些问题,基于Spark分布式计算框架将支持向量机模型并行化。主要包含以下工作:首先,层叠支持向量机模型(Cascade SVM)作为一种分布式模型,能够有效减少运行时间,但是Cascade SVM的准确率比单机SVM的低,所以我们将Cascade SVM第二层子模型两两合并的结构改为混合合并,并且基于Spark实现改进的Cascade SVM,从而在一定程度上提高模型的准确率。其次,为了进一步提高Cascade SVM的准确率,我们使用鲸鱼优化算法(WOA)对SVM的惩罚参数C和核函数参数g进行寻优。由于WOA容易陷入局部最优解无法达到全局最优解,所以将WOA的线性收敛因子修改为非线性收敛因子,并引入柯西变异因子增加搜寻全局最优解的可能性,将改进后WOA对参数C和g寻优。经过8个基准测试函数的验证,改进WOA优于基础WOA和粒子群算法。最终,通过LibSVM网站中的数据作为实验数据集,从训练时间、准确率和支持向量个数上比较单机SVM、Cascade SVM和改进的Cascade SVM的性能。实验结果表明,在数据规模较大时,改进Cascade SVM相比于单机SVM的运行时间大幅降低,虽然相比基础的Cascade svm运行时间稍长,但是改进模型的准确率要优于其他两种模型,全局支持向量的个数也多于其他两种模型。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分