咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于机器学习的染色质三维结构及DNA甲基化预后模型研究 收藏
基于机器学习的染色质三维结构及DNA甲基化预后模型研究

基于机器学习的染色质三维结构及DNA甲基化预后模型研究

作     者:阿丽玛 

作者单位:云南大学 

学位级别:硕士

导师姓名:周维

授予年度:2021年

学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:生物信息 机器学习 Hilbert Curve PADMXB算法 

摘      要:根据世卫组织(WHO)的研究结果显示,癌症仍是致病率、死亡率居高不下的致命疾病,恶性肿瘤产生的原因多种多样,包括原癌基因的异常表达、染色体结构变异(SV)以及DNA甲基化导致的抑癌基因转录沉默等,癌症的早期筛查和诊断是困扰科研人员和医学家的重要难题。传统的高通量染色体构象捕获(HiC)、光学映射等方法只能提供有限的序列信息和分辨率,但依据现有的生物学数据从而拓展高维空间中的染色质组织构象可视化依然缺少研究策略。DNA甲基化水平值异常往往是癌症发生的预警标志,因此如何识别高风险甲基化位点,并且联合临床数据、基因表达数据等,提供更加严谨和丰富预后信息,仍需要新的研究方案。在本文中,针对染色质空间构象研究及DNA甲基化预后分析课题,将生物学理论与机器学习算法相结合,挖掘生物数据的潜在特征,探寻最符合数据样本规律的研究方法,为癌症问题及其他生物信息学问题的研究提供思路,本文的主要贡献如下:(1)针对染色质空间成像问题,独创性地提出基于Hilbert曲线(Hilbert Curve)的染色质三维构象研究框架。采用基于双核苷酸的基因序列特征提取方法,提取基因序列特征,结合Hi-C数据,使用局部加权线性回归(LWR)机器学习算法拟合Hilbert key值,再将Hilbert key值还原至三维空间,实现染色质构象可视化,为染色质空间结构研究提供新方法。(2)提出基于针对DNA甲基化数据集的PADMXB算法(Prognostic analysis of DNA methylation based on XGBoost)及最小二乘线性回归的DNA甲基化预后分析模型。针对DNA甲基化数据集样本不平衡的问题,为模型增加了阈值参数,调整正负样本的分类边界,相较于Cox回归分析,算法效果有所提升。结合临床数据,使用最小二乘线性回归算法拟合生存时间,通过筛选出的甲基化位点及基因表达联合分析,对癌症问题进行深入研究。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分