咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合数据增强与半监督学习的药物不良反应检测 收藏

融合数据增强与半监督学习的药物不良反应检测

Adverse Drug Reaction Detection Combined with Data Augmentation and Semi-supervised Learning

作     者:佘朝阳 严馨 徐广义 陈玮 邓忠莹 SHE Zhaoyang;YAN Xin;XU Guangyi;CHEN Wei;DENG Zhongying

作者机构:昆明理工大学信息工程与自动化学院昆明650504 昆明理工大学云南省人工智能重点实验室昆明650504 云南南天电子信息产业股份有限公司昆明650041 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2022年第48卷第6期

页      面:314-320页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61462055 61562049) 

主  题:医疗社交媒体 药物不良反应 数据增强 半监督学习 预训练语言模型 

摘      要:目前药物不良反应(ADR)研究使用的数据主要来源于英文语料,较少选用存在标注数据稀缺问题的中文医疗社交媒体数据集,导致对中文医疗社交媒体的研究有限。为解决标注数据稀缺的问题,提出一种新型的ADR检测方法。采用ERNIE预训练模型获取文本的词向量,利用BiLSTM模型和注意力机制学习文本的向量表示,并通过全连接层和softmax函数得到文本的分类标签。对未标注数据进行文本增强,使用分类模型获取低熵标签,此标签被作为原始未标注样本及其增强样本的伪标签。此外,将带有伪标签的数据与人工标注数据进行混合,在分类模型的编码层和分类层间加入Mixup层,并在文本向量空间中使用Mixup增强方法插值混合样本,从而扩增样本数量。通过将数据增强和半监督学习相结合,充分利用标注数据与未标注数据,实现ADR的检测。实验结果表明,该方法无需大量的标注数据,缓解了标注数据不足对检测结果的影响,有效提升了药物不良反应检测模型的性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分