基于主成分协同表示的高维数据分类方法
High dimensional data classification method based on principal component and collaboration representation作者机构:武汉大学信息管理学院湖北武汉430072 武汉晴川学院湖北武汉430204
出 版 物:《武汉大学学报(工学版)》 (Engineering Journal of Wuhan University)
年 卷 期:2024年第57卷第3期
页 面:380-387页
核心收录:
学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:基因表达数据集维度高、样本量少的问题导致分类任务的计算成本和计算复杂度高,重要的特征和合适的分类算法的选择是解决这一问题的重要方法。由于不同环境下影响油菜花期长短的重要基因位点不同,为了对多个环境下的油菜花期进行分类,在初步降维后的油菜基因数据的基础上提出了一个基于主成分协同表示的分类(principal component and collaboration representation-based classification,PC_CRC)方法。第1步,通过距离相关性(distance correlation, DC)方法从全基因位点中筛选重要的基因位点,再从这些基因位点中筛选显著的交互效应,基于选取的数据集T划分训练集T1和测试集T2;第2步,通过对T1的简单随机抽样获得样本均衡的新训练集T3,并通过协同表示分类(CRC)方法在T3上训练T1,选出对油菜花期做分类的最优主成分个数N;最后,对T选取N个主成分,通过第2步的分类方法得出最终分类结果。PC_CRC方法通过降维和稀疏表示能有效避免数据的过拟合,实现更精准的分类。实验结果表明,所提出的PC_CRC方法在10种环境下的油菜基因表达数据集上取得了79.34%的平均分类准确率,在8个环境中均优于决策树、支持向量机和随机森林等机器学习方法。