咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于MedBERT-wwm和GlobalPointer的中文... 收藏
基于MedBERT-wwm和GlobalPointer的中文医学命名实体识别研究

基于MedBERT-wwm和GlobalPointer的中文医学命名实体识别研究

作     者:张拓 

作者单位:北京化工大学 

学位级别:硕士

导师姓名:史晟辉

授予年度:2024年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:命名实体识别 MedBERT-wwm GlobalPointer 多策略边界平滑 样本不均衡优化 

摘      要:在医学信息化与“互联网+的背景下,电子病历和在线问诊文本已成为医学研究的重要资源。精确地从这些文本中识别命名实体,对于构建医学知识图谱以及发展智能问诊系统至关重要。然而,医学文本具有高度专业性和语义复杂性,并且存在大量长实体,这导致现有模型在医学实体识别方面难以达到理想效果。同时,为识别文本中的嵌套实体,模型的解码策略已从传统的序列标注转向跨度预测。但目前基于跨度预测的模型仍面临着数据集噪声、跨度硬边界以及样本分布不均衡等问题。 针对上述问题,本文提出了基于MedBERT-wwm和GlobalPointer的混合模型,并在其基础上进行研究和改进,具体工作如下: (1)针对中文医学文本专业性强、长实体多的特点,本文提出了基于MedBERT-wwm和GlobalPointer的混合模型,简称MedBERT-GP。该模型通过MedBERT-wwm增强医学语义理解能力,并利用GlobalPointer提升长实体识别效果。实验结果表明,MedBERT-GP在c EHRNER、c Med QANER、CCKS-2017以及CMe EE-V2数据集上分别达到了86.66%、84.62%、92.54%以及73.05%的F1值,并且对比BERT-CRF、BERT-Biaffine等模型有着更加高效的训练与推理性能。 (2)针对数据集噪声和跨度硬边界问题,本文提出了多策略边界平滑正则化方法,并基于此方法对MedBERT-GP进行改进,得到了MedBERT-GP(MBS)模型。该模型通过梯度平滑、首尾平滑以及矩形平滑三种策略,将实体概率重新分配给周围的非实体,从而增强跨度间的语义联系。实验结果表明,对比MedBERT-GP,MedBERT-GP(MBS)在c EHRNER、c Med QANER、CCKS-2017以及CMe EE-V2数据集上的F1值分别提升了0.60%、0.63%、0.34%和0.72%,并具有更强的抗噪能力和泛化性能。 (3)针对样本分布不均衡问题,本文设计了多重样本不均衡损失函数,并在此基础上对MedBERT-GP进行优化,得到了MedBERT-GP(MSIL)模型。该模型使用基于多策略边界平滑改进的Focal损失和Dice损失来代替传统的二元交叉熵损失,从而提高正样本的权重并降低易分类样本的权重。实验结果表明,对比MedBERT-GP,MedBERT-GP(MSIL)在c EHRNER、c Med QANER、CCKS-2017以及CMe EE-V2数据集上的F1值分别提升了1.47%、1.12%、0.30%和1.16%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分