大肠杆菌启动子序列特征分析与识别方法的研究
作者单位:北京工业大学
学位级别:硕士
导师姓名:阮晓钢
授予年度:2004年
学科分类:0710[理学-生物学] 07[理学] 071007[理学-遗传学]
主 题:大肠杆菌启动子 BP 神经网络 数据优化 支持向量机 识别
摘 要:摘 要 本课题源于国家自然科学基金项目“复杂系统意义下的生物信息学中若 干问题的研究(No.60234020),主要以大肠杆菌启动子为研究对象,运 用智能信息处理方法,对大肠杆菌启动子序列进行分析和研究,重点研究启 动子序列的识别问题。论文取得的主要研究成果如下: 1. 本文应用变输入长度和滑动空位方法建立了基于神经网络的大肠 杆菌启动子识别模型,根据大肠杆菌基因分子生物学有关理论与统计事 实,对启动子序列组件进行研究和分析。研究发现,除两个显著保守序列 特征组件外,其它几个非显著序列组件包含的特征信息对大肠杆菌启动子 的识别也有一定的影响。 2. 本文提出基于数据优化的大肠杆菌启动子识别方法,并基于该方法 和 BP 神经网络建立了大肠杆菌启动子识别模型 (Data Optimization &Neural Network Model, DONN)。DONN 模型选取在-10 区比对过的大肠 杆菌启动子序列和相应长度的编码区序列为正负样本,在神经网络分类器 进行训练之前,通过权值矩阵模型(WMM)优化训练集样本,将处理过 的数据集作为神经网络的训练样本。研究结果表明,采用数据优化法建立 的神经网络分类器具有较高的敏感度和综合辨识精度。 3. 本文将支持向量机(Support Vector Machine, SVM)方法用于大肠 杆菌启动子的识别中,从数据库中选取一定长度的正样本序列和负样本序 列,按 3:1 的比例分成训练集和测试集,建立了基于支持向量机的分类器。 实验研究结果表明,基于支持向量机的识别方法优于传统的神经网络识别 模型,表明其在生物信息学中有良好的应用前景。 大肠杆菌启动子的识别问题是生物信息学研究的重要问题之一。本文的 研究对探索启动子的识别具有参考价值。