面向lncRNA亚细胞定位预测的注意力BiLSTM与原型网络
作者机构:云南师范大学信息学院 云南省教育厅计算机视觉与智能控制技术工程研究中心
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2024年
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:云南省基础研究面上项目(202201AT070042) 国家自然科学基金(61862067,U1902201) 云南省科技厅-云南大学双一流联合基金重点项目(2019FY003027) 国家重点研发计划(grant no.2022YFC2602500) 云南师范大学研究生科研创新基金项目(YJ SJ23-B173)
主 题:lncRNA亚细胞定位 不平衡学习 双向长短时记忆网络 原型网络 可解释
摘 要:长链非编码RNA(long non-coding RNAs, lncRNA)在细胞的许多生命过程中发挥着重要作用,而lncRNA亚细胞定位可为其功能识别带来关键信息,针对通过传统生物生化实验方法鉴定lncRNA亚细胞定位存在着程序复杂、难以复制、成本高等缺点,提出了一种面向lncRNA亚细胞定位预测的注意力双向长短时记忆(BiLSTM)与原型网络方法——BP-lncLoc。首先,基于原始序列数据中获取K-mer初始特征,并对其做平衡处理;其次结合注意力BiLSTM有效提取lncRNA序列深层隐含特征,并优化神经网络在处理高维数据时可能出现的梯度消失问题;再次,针对lncRNA亚细胞定位数据的小样本特性,构建了不依赖大规模训练样本的原型网络预测框架;最后,目前现有计算模型缺乏可解释性,即不知道模型如何基于输入数据做出决策的,随着人工智能和机器学习的快速发展,可解释性变得越来越重要。本文从量化输入特征对输出决策的重要性角度出发,实现了预测模型的可解释性。与最新方法相比,该方法在公开数据集上的准确率达到了98.89%的最佳结果,为lncRNA亚细胞定位预测应用提供了一种新思路。