面向蛋白质结构预测的递归几何网络的可视化和分析
作者单位:燕山大学
学位级别:硕士
导师姓名:郭栋梁
授予年度:2021年
学科分类:0710[理学-生物学] 12[管理学] 071010[理学-生物化学与分子生物学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081704[工学-应用化学] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0817[工学-化学工程与技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:可视化 隐藏状态 双向神经网络 递归几何网络 蛋白质三维结构预测
摘 要:蛋白质三维结构预测一直是分子生物学的重要课题,传统实验方法非常复杂且耗时较长。随着深度学习的兴起,RGN(Recurrent Geometric Networks)作为一种深度学习模型已成功应用于蛋白质三维结构预测。该模型通过一条氨基酸序列及相关PSSM(Position Specific Scoring Matrix)信息来预测一条序列对应的蛋白质主链三维结构,其预测结果的精度可以媲美目前最优方法。但是,RGN中神经网络的内部复杂性和非线性结构使得模型本身就是一个“黑匣子,人们难以理解网络获得如此高精度的原因。目前神经网络的解释性发展远远比不上其应用的发展速度,研究人员需要分析神经网络隐藏状态的工作模式,以探究“黑盒的工作原理。首先,针对神经网络隐藏层的“黑盒问题,本文提出一种研究神经网络隐藏状态的方法,该方法通过计算不同时间步下隐藏状态的相似度发现隐藏状态的奇偶位置特征。通过分析RGN中双向神经网络不同时间步下的表现,发现后向网络的作用效果远大于前向网络。其次,针对前向网络的响应状态远小于后向网络的问题,本文着重对双向神经网络中的前后网络隐藏层进行比较分析。经过对比发现,RGN虽然使用双向神经网络架构,但是其前向网络的响应效果远小于后向网络,并且前向网络响应随着时间步的改变,在序列末尾突然剧烈增加。通过对以上结果的分析,本文给出的结论是RGN中双向神经网络存在特征学习不均匀的问题。再次,针对RGN隐藏层复杂难以分析的问题,设计并搭建可视化系统以分析RGN隐藏状态。该系统提高RGN隐藏状态分析效率并为研究RGN提供便利。最后,本文在CASP(Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction)7数据集上进行测试,实验结果验证了分析的有效性。