咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于互信息和融合加权的并行深度森林算法 收藏

基于互信息和融合加权的并行深度森林算法

Parallel deep forest algorithm based on mutual information and mixed weighting

作     者:毛伊敏 李文豪 Mao Yimin;Li Wenhao

作者机构:江西理工大学信息工程学院江西赣州341000 韶关学院信息工程学院广东韶关512000 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2024年第41卷第2期

页      面:473-481页

学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:广东省重点领域研发计划资助项目(2022B0101020002) 广东省重点提升项目(2022ZDJS048) 

主  题:Spark框架 并行深度森林 互信息 负载均衡 

摘      要:针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information and mixed weighting,PDF-MIMW)。首先,在特征降维阶段提出了基于互信息的特征提取策略(feature extraction strategy based on mutual information,FE-MI),结合特征重要性、交互性和冗余性度量过滤原始特征,剔除过多的不相关和冗余特征;接着,在多粒度扫描阶段提出了基于填充的改进多粒度扫描策略(improved multi-granularity scanning strategy based on padding,IMGS-P),对精简后的特征进行填充并对窗口扫描后的子序列进行随机采样,保证多粒度扫描的平衡;其次,在级联森林构建阶段提出了并行子森林构建策略(sub-forest construction strategy based on mixed weighting,SFC-MW),结合Spark框架并行构建加权子森林,提升模型的分类性能;最后,在类向量合并阶段提出基于混合粒子群算法的负载均衡策略(load balancing strategy based on hybrid particle swarm optimization algorithm,LB-HPSO),优化Spark框架中任务节点的负载分配,降低类向量合并时的等待时长,提高模型的并行化效率。实验表明,PDF-MIMW算法的分类效果更佳,同时在大数据环境下的训练效率更高。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分