微生物与疾病的潜在关联关系预测方法研究
作者单位:曲阜师范大学
学位级别:硕士
导师姓名:鲁大营
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1001[医学-基础医学(可授医学、理学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学]
主 题:微生物-疾病关联预测 PU学习 K-近邻算法 图神经网络 多层感知机
摘 要:异常水平的微生物对各种复杂疾病的形成和发展有重要的影响,通过识别可能的微生物-疾病之间的关联有助于理解和研究各种复杂疾病形成和发病机制,同时发现更有效的治疗方法和预防措施,以改善人类健康。然而,传统的预测方法耗时较长并且准确率偏低,给微生物-疾病的关联预测任务带来了很大的挑战。因此,更加准确的预测算法已经成为识别和预测微生物和疾病之间潜在关联的强大工具。在此背景下,本文主要针对提高微生物-疾病关联预测准确率的问题,基于机器学习和深度学习的理论,结合微生物-疾病关联预测的特点,提出了两个具有较好预测效果的模型。本文的主要研究内容如下所述: (1)针对目前的实验预测算法在实验过程中缺少相应阴性训练样本以及样本之间相似性互相影响导致准确率偏低的问题,提出了一个名为PUNNHMDA 的预测模型。算法采用 PU 学习(Positive-Unlabeled learning)方法与改进的K-近邻算法(K-Nearest Neighbor)相结合的方式实现训练可靠的阴性样本以提高实验准确率的目的。首先,PUNNHMDA使用PU学习方法从未知关联对中选择可靠的阴性微生物-疾病关联样本。其次,将马氏距离函数与K-近邻算法相结合用于微生物-疾病关联预测。 (2)针对传统的微生物-疾病关联预测方法通常忽略微生物与疾病存在的相互作用信息,从而导致预测性能下降的问题,提出了一个名为MPGNHMDA的模型。使用图神经网络(GNN)和多层感知机(MLP)进行预测,解决无法有效地获取微生物-疾病之间相互作用信息的问题,以提高预测准确性。该模型首先利用GNN模型进行疾病与微生物的特征提取以及样本节点特征嵌入表示。其次,利用MLP模型预测未知的微生物-疾病关联分数。 为了验证PUNNHMDA以及MPGNHMDA的有效性,本文采用留一交叉验证和K折交叉验证,结合案例研究的方法对预测结果进行评估与分析。结果表明PUNNHMDA以及MPGNHMDA具有优于其他预测模型的预测性能,获得了较高的准确率。