融合数据增强与半监督学习的药物不良反应检测
Adverse Drug Reaction Detection Combined with Data Augmentation and Semi-supervised Learning作者机构:昆明理工大学信息工程与自动化学院昆明650504 昆明理工大学云南省人工智能重点实验室昆明650504 云南南天电子信息产业股份有限公司昆明650041
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2022年第48卷第6期
页 面:314-320页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61462055 61562049)
主 题:医疗社交媒体 药物不良反应 数据增强 半监督学习 预训练语言模型
摘 要:目前药物不良反应(ADR)研究使用的数据主要来源于英文语料,较少选用存在标注数据稀缺问题的中文医疗社交媒体数据集,导致对中文医疗社交媒体的研究有限。为解决标注数据稀缺的问题,提出一种新型的ADR检测方法。采用ERNIE预训练模型获取文本的词向量,利用BiLSTM模型和注意力机制学习文本的向量表示,并通过全连接层和softmax函数得到文本的分类标签。对未标注数据进行文本增强,使用分类模型获取低熵标签,此标签被作为原始未标注样本及其增强样本的伪标签。此外,将带有伪标签的数据与人工标注数据进行混合,在分类模型的编码层和分类层间加入Mixup层,并在文本向量空间中使用Mixup增强方法插值混合样本,从而扩增样本数量。通过将数据增强和半监督学习相结合,充分利用标注数据与未标注数据,实现ADR的检测。实验结果表明,该方法无需大量的标注数据,缓解了标注数据不足对检测结果的影响,有效提升了药物不良反应检测模型的性能。