咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度度量学习的少样本基因表达谱癌症分类 收藏
基于深度度量学习的少样本基因表达谱癌症分类

基于深度度量学习的少样本基因表达谱癌症分类

作     者:杨林 

作者单位:哈尔滨工业大学 

学位级别:硕士

导师姓名:王轩

授予年度:2020年

学科分类:1002[医学-临床医学] 08[工学] 081104[工学-模式识别与智能系统] 100214[医学-肿瘤学] 0811[工学-控制科学与工程] 10[医学] 

主      题:基因表达谱数据 深度学习 深度度量学习 

摘      要:癌症已经成为全球范围内疾病和死亡的主要原因,对人们身体健康和生活都造成严重的影响。癌症产生的病因多种多样,找出癌症产生的原因和相关治疗方法成为科研工作人员的重要工作。经过科研工作者多年的研究,大多数包括癌症在内的疾病跟人类的基因相关,而人类研究自身基因的一个重要数据来源就是基因表达谱数据。基因表达数据是由生物学者选择一部分人体组织样本,加入指定试剂激活刺激组织内的基因表达,然后使用基因芯片去检测RNA蛋白质表达水平。一方面通过对某些患者及健康人士选取相同组织做基因表达谱数据,可以得到基因表达水平的不同;另一方面通过实验观测药物或者治疗方案对关键基因表达的作用,及观察前后表达水平差异,就可以评估治疗的作用和药物的疗效。因此使用基因表达谱数据对各类癌症进行细致分类,对于癌症诊断治疗有着极其重要的作用。然而在一个基因表达谱数据集中,通常只有几十个样本,而一个样本检测的基因数目高达数万,特征维度和样本数量不均衡导致基因表达谱数据直接使用机器学习模型分类时存在严重的过拟合问题。在生物信息领域使用深度学习来分析基因表达谱数据已经是一个非常重要的应用了。现有的深度学习方法已经在基于大型基因表达谱数据的癌症诊断方面取得了成功。然而,之前的深度学习模型在高维度少样本的基因表达谱数据上难以取得令人满意的表现。本文提出了一种基于深度度量学习的少样本基因表达谱数据癌症分类的方法——Deep Metric Learning with Sparse Feature Selection(DMSFS)。DMSFS通过针对基因表达谱数据高维度少样本的特点,设计基于深度度量学习的样本生成层来生成更多的新样本,从而解决样本数量和特征维度不均衡的问题。同时,DMSFS中设计了新型的基于梯度下降的特征权重层,通过模型训练中特征权重的变化幅度体现特征的重要性。将特征权重排序后,DMSFS从高维度的特征中选择重要的特征参与分类器的训练,从而减少参与训练的特征数量。DMSFS中的两个网络连接后,一方面通过样本生成层生成更多的样本促进特征权重层更好地选择重要特征,另一方面特征权重层选择更重要的特征促进模型判断样本之间差异性,从而反馈给生成层生成更适合挖掘差异性的新样本。DMSFS在与当前五个具有代表性的方法对比时,在8个真实的基因表达谱数据上实验结果取得了10至5个百分点的提高。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分