基于相关性的癌症特征选择及分类算法研究
作者单位:湖南大学
学位级别:硕士
导师姓名:卢新国
授予年度:2012年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1002[医学-临床医学] 100214[医学-肿瘤学] 10[医学]
摘 要:微阵列技术的发展为生物学研究领域提供了大量的基因表达数据,为基因功能研究提供了一种强有力的工具,使得同时分析成千上万个基因成为可能。癌症的分类以及与癌症相关的关键基因的识别已经成为当前癌症研究中的重要组成部分。由于微阵列数据维数高、样本数少的特点,普通的数据挖掘方法并不能取得很好的效果。 本文主要针对微阵列数据特征选取方法和分类算法进行了深入的分析与探讨,并提出了改进的特征选择方法和癌症分类算法,以提高分类准确率和数据泛化能力。主要工作概括如下: 针对特征基因选择问题,提出了一种基于相关性特征选择的分层抽样基因选择方法(CFS-SS)。由于微阵列数据具有高维度、样本少、多噪声的特点,对基因表达数据进行预处理。首先对微阵列数据进行缺失值补齐,归一化等操作。其次删除各样本基因方差值过小对分类意义不大的基因,降低维度,降低时间复杂度。然后应用相关性特征选择选择出具有局部最大相关性特征集,在其所有非空特征子集上进行分层抽样,在抽样后的特征集上进行分类性能测试,找到分类准确率最高的特征子集。在三个基因表达数据集上进行仿真实验,该方法能有效提升分类准确率。 由CFS-SS提取出的特征子集作为具有差异的训练样本对基分类器进行训练,由具有差异的基分类器进行相对多数投票集成,得到一种集成分类方法(Bag-CFS-SS)。在基因表达数据集上进行实验,验证该方法的可行性和可靠性。