人类抗原肽载体结合力预测
作者单位:华中农业大学
学位级别:硕士
导师姓名:石峰
授予年度:2009年
学科分类:1001[医学-基础医学(可授医学、理学学位)] 100102[医学-免疫学] 10[医学]
主 题:抗原相关运转蛋白 绑定结合力 支持向量机 人工神经网络 机器学习 主成分分析
摘 要:主要组织相溶性复合体MHCⅠ类抗原(Major Histocompatibility Complex Class I Antigens)的加工和递呈对于免疫监视非常重要,细胞毒素T淋巴细胞抗原表位的产生是一个复杂的过程,包括大量的细胞内进程。内源性抗原首先在细胞质内经酶切,形成大小不等的多肽片段,由抗原肽载体TAP (Transporter Associated with Antigen Processing)转运至内质网,再与MHC I类分子绑定,经细胞外排系统表达于细胞表面,便于CD8阳性T细胞识别,形成三联体,以产生免疫应答。其中内源性抗原加工和递呈相关的运转蛋白——抗原肽载体TAP是一种跨膜蛋白,负责将抗原肽片段运输到内质网,在整个抗原加工递呈过程中扮演了重要的角色。因此TAP对抗原多肽的结合偏爱对T细胞抗原表位的选择具有重大影响。本文提出新的模型来预测人类抗原9肽和抗原肽载体TAP的绑定结合力的数量值。并对影响结合力的氨基酸位点及物理化学属性进行了分析,解释了其生物学含义。 本文的主要创新和结论: (1)在与结合力相关的众多物理化学属性中,选择了20种氨基酸的15种物理化学属性作为建模依据。通过机器学习方法,得出了对于人类TAP与抗原9肽绑定结合力较为重要的理化属性和位点。 (2)对于抗原9肽,使用了15特征初始编码方案。又在此基础上,通过机器学习方法,选择出排在前15位的影响重大的维数,并结合统计学的主成分分析方法对相对次要的维数进行了综合提炼,以部分主成分代替原来的维数参与建模,并进一步构建了三种不同的新的编码方案。(3)将数据集划分为训练集,验证集和测试集。对于每一种编码方案,分别使用了支持向量回归机和人工神经网络作为预测引擎进行了旁置法测试的试验。训练模型,优化参数,独立测试。并对三种编码方案所得的试验结果进行了比较说明。支持向量机测试,皮尔逊相关系数达到r=0.9029;交叉验证相关系数q2=0.8068;人工神经网络达到r=0.8547;q2=0.6985。 (4)用五折交叉验证的方法对整个数据集进行了交叉训练和测试。得到最优参数,并对试验结果进行了分析。全部数据测试结果,支持向量机为r=0.8225;q2=0.6697。人工神经网络为r=0.9417,q2=0.8852。从而证明了该预测技术具有可靠性和可行性。 (5)根据模型测试的结果,分析了其相应的生物学含义。提出了进一步研究的方向。