基于深度级联森林的乳腺癌基因数据分类研究
Classification of Breast Cancer Gene Data Based on gcForest作者机构:长春工业大学大数据科学研究院长春130012 长春工业大学研究生院长春130012 长春工业大学数学与统计学院长春130012
出 版 物:《中国生物医学工程学报》 (Chinese Journal of Biomedical Engineering)
年 卷 期:2022年第41卷第2期
页 面:177-185页
核心收录:
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 08[工学] 0836[工学-生物工程]
基 金:国家自然科学基金(11301036,12026430) 吉林省教育厅科研项目(JJKH20170540KJ,JJKH20210716KJ)
主 题:乳腺癌分类 基因表达数据 变量选择 最大相关最小冗余 深度级联森林
摘 要:乳腺癌基因数据的分类研究在临床医学上具有重要意义。针对基因数据的结构复杂、高维小样本等特点,提出一种最大相关最小条件冗余和深度级联森林结合的基因数据分类方法。选取博德基因研究所乳腺癌基因表达数据集,共98个数据作为样本,每个样本包含1 213个特征基因。首先对数据进行标准化处理,然后利用最大相关最小条件冗余选取特征子集,最后使用深度级联森林对特征子集进行分类。将随机森林、支持向量机和BP神经网络作为对比方法。结果表明,所提出的最大相关最小条件冗余和深度级联森林结合方法的最佳分类准确率达到93.78%,明显优于其他方法。该方法能有效提高乳腺癌基因数据的分类准确率,对基于基因数据的乳腺癌分类具有重要的理论意义与实用价值。