基于深度学习的药物不良反应识别分类研究
作者单位:新疆大学
学位级别:硕士
导师姓名:田生伟
授予年度:2021年
学科分类:12[管理学] 08[工学] 1007[医学-药学(可授医学、理学学位)] 1006[医学-中西医结合] 100706[医学-药理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 100602[医学-中西医结合临床] 10[医学]
主 题:药物不良反应 深度学习 独立循环神经网络 迁移学习 注意力机制
摘 要:药物不良反应是指因药物本身存在的质量问题或者用户用药不规范所引起的一系列不同程度的有害反应,常见的不良反应包括药物的副作用、后遗作用以及特异性反应等等。目前,药物不良反应已经成为医疗研发部门和普通用户以及各大医疗机构的关注焦点,因此当前用户用药安全问题的重要性尤为明显,考虑到医疗研发平台研究新药物的瓶颈,不可能在短时间内对大基数的民众进行用药测试以及研发药物的周期有限,因此捕捉药物已知与潜在的不良反应对医疗研发具有重要的参考价值。针对新疆地方药物不良反应的研究可以进一步为临床药物的研发工作提供理论指导。目前对药物不良反应的研究主要是以英文语料进行展开研究,在研究技术上缺乏对深度学习算法的使用,并且对语料上下文信息以及语义信息的利用研究较少。因此,针对以上存在的问题,本文以深度学习技术为基础,对新疆地方药物不良反应识别分类任务进行以下三个方面的研究:(1)构建新疆地方药物不良反应语料库。当前国内外缺少药物不良反应相关的公开数据集,针对这一问题,本文采用基于Python语言的爬虫技术对百度贴吧、新浪微博、知乎以及各大用户用药咨询网站上的用户评论进行爬取,对爬取到的用户评论文本信息进行数据清洗、分词以及标注工作,为后期新疆地方药物不良反应的研究提供数据支撑。(2)对新疆地方药物不良反应实体识别进行研究。针对当前深度学习神经网络对小规模数据学习能力欠缺的问题,提出一种基于迁移学习的药物不良反应实体识别研究方法,构建联合神经网络SAIBC模型。采用迁移学习充分利用中文分词任务和新疆地方药物不良反应实体识别任务可以共享的边界信息,同时过滤中文分词任务中的特定信息,引入独立循环神经网络(Independently Recurrent Neural Network,Ind RNN)提高特征的表达性能,确保SAIBC模型能够从不同的层面进行关注不同实体的重要信息,更好的捕捉长句子的依赖关系。(3)提出一种基于Attention机制和融合情感信息的药物不良反应分类研究方法,构建Attention机制、卷积神经网络(Convolutional neural networks,CNN)以及双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,Bi LSTM)相联合的神经网络ACB模型。为提高对药物不良反应的识别效率以及解决神经网络在训练时出现的梯度爆炸与消失问题,引入Attention机制增强模型的可靠性,同时融合用户用药评论的情感信息,相比于仅依赖用户用药评论的浅层信息,可以提高特征的表达能力和药物不良反应分类的准确性。ACB模型在新疆地方药物不良反应分类任务中的准确率为95.12%,召回率为98.48%,F1-Score值为96.77%。