基于网络结构推理和拓扑相似性的致病基因预测算法
作者单位:安徽大学
学位级别:硕士
导师姓名:梁栋
授予年度:2017年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1001[医学-基础医学(可授医学、理学学位)] 10[医学]
主 题:网络结构推理 二部图 致病基因 拓扑相似性 OMIM数据库 INBI算法
摘 要:现阶段,研究者们发现几乎所有的疾病都与基因有一定的关联,如何迅速地找到疾病的致病基因对所有研究者们来说是一项很大的挑战。早期,研究者大多使用传统生物实验的方法来进行致病基因的预测,比如连锁分析和关联研究。近几年来,研究者们开始大量使用生物信息学中的计算方法,并通过基于网络结构方法来解决该难题。然而,大多数方法在推理过程中仅仅使用了网络结构中的局部网络信息,并且仅限于推理单一基因的关联。此外,这些方法很少或几乎没有考虑到疾病与基因关联网络中的网络拓扑相似性。本文结合生物信息学和数据挖掘领域中的相关知识,使用了 OMIM(Online MendelianInheritance inMan,OMIM)数据库中的203个疾病数据作为实验的数据集来进行致病基因的预测。本文主要的研究内容和创新工作概述如下:1.为了预测致病基因,本文首次引入二部图网络结构推理(Network-Based Inference,NBI)算法。具体的步骤如下:首先,构建疾病和基因的关联二部图网络;其次,利用物质热扩散原理将基因上的初始化资源扩散到疾病上;最后,再将疾病上的资源扩散到基因上。上述操作结束后将会获取到候选基因的资源向量,并对资源向量按值大小排序进而预测潜在致病基因。在使用OMIM数据集中的203个疾病数据作为最终的实验数据,通过留一交叉验证实验来证明该算法的有效性。2.针对二部图网络结构推理的算法,提出了一种基于网络拓扑相似性的改进算法,称为 INBI(Improved Network-Based Inference,INBI)算法。首先,分别计算网络拓扑相似性,本文通过使用高斯核函数来计算基因网络的拓扑性和疾病网络的拓扑相似性;其次,分别构建疾病邻接矩阵和基因邻接矩阵;然后,预测致病基因的相关性分数;最后,根据相关性分数进行排序从而预测潜在的致病基因。在进行对比实验结果的分析后,可以得出INBI算法具有优越的性能。