咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark和NRSCA策略的并行深度森林算法 收藏

基于Spark和NRSCA策略的并行深度森林算法

Parallel deep forest algorithm based on Spark and NRSCA strategy

作     者:毛伊敏 刘绍芬 Mao Yimin;Liu Shaofen

作者机构:江西理工大学信息工程学院江西赣州341000 韶关学院信息工程学院广东韶关512026 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2024年第41卷第1期

页      面:126-133页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:广东省重点提升项目(2022ZDJS048) 韶关市科技项目(220607154531533) 科技创新2030-“新一代人工智能”重大项目(2020AAA0109605) 

主  题:并行深度森林算法 Spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描 

摘      要:针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分