咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于SoftLexicon和对抗训练的中文医疗命名实体识别 收藏

基于SoftLexicon和对抗训练的中文医疗命名实体识别

Chinese Medical Named Entity Recognition Based on Soft-Lexicon and Adversarial Training

作     者:潘世鹏 吐尔地·托合提 梁毅 艾斯卡尔·艾木都拉 PAN Shipeng;Turdi Tohti;LIANG Yi;Askar Hamdulla

作者机构:新疆大学计算机科学与技术学院 新疆多语种信息技术重点实验室 

出 版 物:《山西大学学报(自然科学版)》 (Journal of Shanxi University(Natural Science Edition))

年 卷 期:2024年第47卷第2期

页      面:260-268页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学] 

基  金:国家自然科学基金(62166042 U2003207) 新疆维吾尔自治区自然科学基金(2021D01C076) 国防科技基金加强计划(2021-JCJQ-JJ-0059) 

主  题:命名实体识别 字词融合 对抗训练 PGD 

摘      要:现有的医疗实体识别模型当中,多数模型不能充分提取和利用文本序列当中词汇信息,且模型结构复杂,使得模型在面临医疗领域的文本时存在实体边界识别不准、鲁棒性较差等问题,并且多数基于字粒度的命名实体识别(Named Entity Recognition, NER)方法对信息遗漏此类问题解决不够完善。针对此类问题,本文提出了一种基于字词融合和对抗训练的命名实体识别模型。模型使用预训练模型BERT(Bidirectional Encoder Representation from Transformers)获取文本序列的字向量;然后使用SoftLexicon引入词典信息并在字向量中添加对抗训练生成的扰动样本;最后使用BiLSTM-CRF(Bi-Long Short-Term Memory-Condition Random Field)进行特征提取并获取序列标注结果。所提出模型在数据集CCKS2019和CCKS2020上进行实验,F1值分别到达了85.07%和90.39%。实验结果表明,与基准模型相比,该模型的F1值提升了2.31%和2.88%,说明字词融合方法和对抗训练相结合能够有效识别医疗实体。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分