面向不平衡多组学癌症数据的特征表征算法
作者机构:吉林大学计算机科学与技术学院 吉林大学人工智能学院
出 版 物:《吉林大学学报(工学版)》 (Journal of Jilin University(Engineering and Technology Edition))
年 卷 期:2024年
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1002[医学-临床医学] 081104[工学-模式识别与智能系统] 08[工学] 100214[医学-肿瘤学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:吉林省中青年科技创新创业卓越人才(团队)项目(创新类)(20210509055RQ) 中国自然科学基金项目(62072212和U19A2061) 吉林省大数据智能计算实验室项目(20180622002JC)
主 题:计算机应用技术 特征表征 生物信息学 多组学数据 特征筛选 机器学习
摘 要:癌症数据能揭示癌症的发病趋势、生存率变化,以及影响因素,为癌症预防和治疗提供科学依据,进而降低癌症的发病率和死亡率。癌症疾病数据面临结构复杂、预测困难、数据不平衡,患者隐私保护等一系列问题。因此,本文提出一种特征表征方法ImFeatures,解决了癌症数据的不平衡问题,丰富了样本结构。联合癌症转录组和甲基化两种组学数据作为真实样本,通过逻辑回归(LR)和随机森林(RF)两种特征选择后,得到的负样本随机划分结合等量的正样本,输入本文提出的特征表征模型,生成学习到关键特征信息的表征样本,以提高模型预测能力。实验结果表明,在经过特征表征后的11种常见癌症数据集上,本文提出的结合特征筛选和特征表征的算法的准确率(Acc)结果均超过了80.00%,其中有5种癌症的预测结果超过了95.00%,可以有效提升癌症疾病的预测结果。